LinguDV

BA Informationsverarbeitung: Linguistische Datenverarbeitung

About

Dieses Repository enthält ein Java-Programm mit Text Mining-Methoden zur Vorverarbeitung und Klassifikation von Wikipedia-Artikeln.

Installation

Die Wikipedia-Artikel müssen zunächst gecrawlt werden ( -> src/main/java/applications/CrawlArticles.java)

Die gecrawlten Wikipedia-Artikel werden entsprechend als .txt-Dateien gespeichert. Für die weitere Verarbeitung müssen die input-Pfade in den entsprechenden Applikationen (im package src/main/java/applications) angepasst werden

Für die Vorverarbeitung werden folgende zusätzliche Dateien benötigt:

Lemmatizer (Mate Tools): -> src/main/resources/MateTools

Sentence Detector (OpenNLP): -> src/main/resources/OpenNLP

Tokenizer (OpenNLP): -> src/main/resources/OpenNLP

Stopword Filter: -> src/main/resources

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

LinguDV

About

Installation

Für die Vorverarbeitung werden folgende zusätzliche Dateien benötigt:

Files

README.md

Latest commit

History

README.md

File metadata and controls

LinguDV

About

Installation

Für die Vorverarbeitung werden folgende zusätzliche Dateien benötigt: