Farsi text classification

Binary text classification on Farsi textual data set ( review, tweet, etc. ).

Project description

Using the SVM approach to classify Farsi (Persian) sentences into two classes. Implemented python code provides an efficient text preprocessing on input data set to achieve a high score on prediction.

Useful libraries for preprocessing task are :

1- ParsBert pre-trained tokenizer 2- PersianStemmer 3- Set of 1336 Persian stop words 4- Set of regular expressions 5- Demoji ( emoji remover )

Prerequisites

Required python libraries

1- csv 2- re 3- demoji 4- pandas 5- PersianStemmer 6- transformers 7- sklearn

installing PersianStemmer

pip install PersianStemmer

pip install https://github.com/htaghizadeh/PersianStemmer-Python/archive/master.zip --upgrade

Files description

SVM.py : project's main python file provided with inline code description, including the running point of code using specified parameters.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
file_utils		file_utils
main_builder		main_builder
model_utils		model_utils
preprocess_utils		preprocess_utils
.gitignore		.gitignore
README.md		README.md
SVM.py		SVM.py
__init__.py		__init__.py
hate_dataset_10.csv		hate_dataset_10.csv
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Farsi text classification

Project description

Prerequisites

Files description

About

Releases

Packages

Languages

masoud-zokaee/persian-text-classification

Folders and files

Latest commit

History

Repository files navigation

Farsi text classification

Project description

Prerequisites

Files description

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages