Skip to content
This repository has been archived by the owner on Oct 8, 2024. It is now read-only.

Latest commit

 

History

History
22 lines (14 loc) · 1.09 KB

README.md

File metadata and controls

22 lines (14 loc) · 1.09 KB

LinguDV

BA Informationsverarbeitung: Linguistische Datenverarbeitung

About

Dieses Repository enthält ein Java-Programm mit Text Mining-Methoden zur Vorverarbeitung und Klassifikation von Wikipedia-Artikeln.

Installation

Die Wikipedia-Artikel müssen zunächst gecrawlt werden ( -> src/main/java/applications/CrawlArticles.java)

Die gecrawlten Wikipedia-Artikel werden entsprechend als .txt-Dateien gespeichert. Für die weitere Verarbeitung müssen die input-Pfade in den entsprechenden Applikationen (im package src/main/java/applications) angepasst werden

Für die Vorverarbeitung werden folgende zusätzliche Dateien benötigt:

Lemmatizer (Mate Tools): -> src/main/resources/MateTools

Sentence Detector (OpenNLP): -> src/main/resources/OpenNLP

Tokenizer (OpenNLP): -> src/main/resources/OpenNLP

Stopword Filter: -> src/main/resources