BA Informationsverarbeitung: Linguistische Datenverarbeitung
Dieses Repository enthält ein Java-Programm mit Text Mining-Methoden zur Vorverarbeitung und Klassifikation von Wikipedia-Artikeln.
Die Wikipedia-Artikel müssen zunächst gecrawlt werden ( -> src/main/java/applications/CrawlArticles.java)
Die gecrawlten Wikipedia-Artikel werden entsprechend als .txt-Dateien gespeichert. Für die weitere Verarbeitung müssen die input-Pfade in den entsprechenden Applikationen (im package src/main/java/applications) angepasst werden
Lemmatizer (Mate Tools): -> src/main/resources/MateTools
Sentence Detector (OpenNLP): -> src/main/resources/OpenNLP
Tokenizer (OpenNLP): -> src/main/resources/OpenNLP
Stopword Filter: -> src/main/resources