GitHub - maryamxasghari/NLP-with-PySpark: CS 777

MET CS 777 - Big Data Analytics

Fall 2021

Natural Language Processing with PySpark

Disaster Tweets classification

Author

Maryam Asghari
Email : masghari@bu.edu

Project description

predicting whether a given tweet is about a real disaster or not using pySpark by using ml libraries and by my own implementations

Dataset

Source : https://www.kaggle.com/c/nlp-getting-started/data

Files

train.csv - the training set
test.csv - the test set (Does not include labels)

Columns

id - a unique identifier for each tweet
text - the text of the tweet
location - the location the tweet was sent from (may be blank)
keyword - a particular keyword from the tweet (may be blank)
target - in train.csv only, this denotes whether a tweet is about a real disaster (1) or not (0)

Python scripts

Utils

Python files for functions that I used in The Notebooks

Plots.py
prep_ml.py
prep_rdd.py
nn_func.py

Scripts to run each classifier in spark

LogisticRegression.py
NaiveBayes.py
SVM.py
Trees.py

RDD_logisticRegression.py

LR_Optimizers.py

RDD_SVM.py

SVM_Optimizer.py

RDD_NN.py

Notebooks

Part1
- Data visualization
- LogisticRegression
- NaiveBayes
- SVM
- Trees
- RDD_logisticRegression
- LR_Optimizers
- RDD_SVM
- SVM_Optimizer
Part2
- RDD_NN

Presentation

Presentation

How to run the scripts

spark-submit LogisticRegression.py './nlp-getting-started/train.csv'

spark-submit NaiveBayes.py './nlp-getting-started/train.csv'

spark-submit SVM.py './nlp-getting-started/train.csv'

spark-submit Trees.py './nlp-getting-started/train.csv'

NOTE: Following scripts need NLTK library

spark-submit RDD_logisticregression.py './nlp-getting-started/train.csv' './output_LR'

spark-submit RDD_svm.py './nlp-getting-started/train.csv' './output_svm'

spark-submit LR_Optimizers.py './nlp-getting-started/train.csv' './out/optimizer:'

spark-submit SVM_Optimizers.py './nlp-getting-started/train.csv' './out/optimizer2'

spark-submit RDD_NN.py './nlp-getting-started/train.csv' './out/NN_rdd'

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MET CS 777 - Big Data Analytics

Fall 2021

Natural Language Processing with PySpark

Disaster Tweets classification

Author

Project description

Dataset

Files

Columns

Python scripts

Utils

Scripts to run each classifier in spark

Notebooks

Presentation

How to run the scripts

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
docs		docs
images		images
nlp-getting-started		nlp-getting-started
out		out
utils		utils
.DS_Store		.DS_Store
.gitignore		.gitignore
LICENSE		LICENSE
LR_Optimizers.py		LR_Optimizers.py
LogisticRegression.py		LogisticRegression.py
NaiveBayes.py		NaiveBayes.py
RDD_NN.py		RDD_NN.py
RDD_SVM.py		RDD_SVM.py
RDD_logisticregression.py		RDD_logisticregression.py
README.md		README.md
SVM.py		SVM.py
SVM_Optimizers.py		SVM_Optimizers.py
Trees.py		Trees.py

License

maryamxasghari/NLP-with-PySpark

Folders and files

Latest commit

History

Repository files navigation

MET CS 777 - Big Data Analytics

Fall 2021

Natural Language Processing with PySpark

Disaster Tweets classification

Author

Project description

Dataset

Files

Columns

Python scripts

Utils

Scripts to run each classifier in spark

Notebooks

Presentation

How to run the scripts

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages