Skip to content
This repository has been archived by the owner on Oct 8, 2024. It is now read-only.
/ LinguDV Public archive

BA Informationsverarbeitung: Linguistische Datenverarbeitung

License

Notifications You must be signed in to change notification settings

johannabi/LinguDV

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LinguDV

BA Informationsverarbeitung: Linguistische Datenverarbeitung

About

Dieses Repository enthält ein Java-Programm mit Text Mining-Methoden zur Vorverarbeitung und Klassifikation von Wikipedia-Artikeln.

Installation

Die Wikipedia-Artikel müssen zunächst gecrawlt werden ( -> src/main/java/applications/CrawlArticles.java)

Die gecrawlten Wikipedia-Artikel werden entsprechend als .txt-Dateien gespeichert. Für die weitere Verarbeitung müssen die input-Pfade in den entsprechenden Applikationen (im package src/main/java/applications) angepasst werden

Für die Vorverarbeitung werden folgende zusätzliche Dateien benötigt:

Lemmatizer (Mate Tools): -> src/main/resources/MateTools

Sentence Detector (OpenNLP): -> src/main/resources/OpenNLP

Tokenizer (OpenNLP): -> src/main/resources/OpenNLP

Stopword Filter: -> src/main/resources

About

BA Informationsverarbeitung: Linguistische Datenverarbeitung

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages