EstNLTK (NLTK ehk Natural Language ToolKit) on peamiselt Pythonis kirjutatud kogumik teeke eestikeelsete tekstide töötluseks.
EstNLTK eesmärkideks on olemasolevate keeletehnoloogia tööriistade omavaheline liidestamine ja kättesaadavaks muutmine ning uute loomine.
EstNLTK kui projekti tuumaks on Pythoni estnltk teek, milles sisaldub:
- eesti keele sõnestamine ehk sõnapiiride tuvastamine ehk üksustamine (tokeniseerimine)
- eesti keele lausestamine ehk lausepiiride tuvastamine
- eesti keele osalausestamine ehk osalausepiiride tuvastamine
- eesti keele lemmatiseerimine ehk sõnade algvormide (lemmade) määramine ning morfoloogiline analüüs ja ühestamine (liidestudes mugavalt vabamorfiga)
- sõnaliikide määramine
- eesti keele morfoloogiline süntees (etteantud lemma ja grammatilise vormi põhjal õige sõnakuju tuletamine)
- nimeolemite e nimega üksuste tuvastamine eestikeelsest tekstist (NER ehk Named-entity recognition)
- liidestus eesti Wordnetiga
- eestikeelsete ajaväljendite tuvastamine ning nende semantika esitamine (TIMEX3 formaadis)
- pindsüntaktiline analüüs ning sõltuvussüntaktiline analüüs:
- masinõppepõhine analüüs MaltParseri abil
- reeglipõhine analüüs mooduli EstCG abil
Veebitööriist tekstide käsitsi märgendamiseks ning eraldusmustrite testimiseks. Võimaldab teksti kiiresti mustrite alusel märgendada ning hiljem uusi mustrieraldustööriistu olemasolevate annotatsioonide vastu testida.
Käsureatööriist html väljundiga, mis võimaldab visuaalselt võrrelda kahte csv-kujul sagedusloendit. Näide kasutamisest postimehe artiklite põhjal.
Jupyter-põhine tööriist andmepunktiklastrite klassifitseerimiseks.
Ner-tagger on veebitööriist, mis aitab märgendada ja annoteerida teksti. Eelkõige mõeldud nimeolemite märgendamiseks.
Gap-tagger on veebipõhine tööriist lauselünga-eksperimentide läbiviimiseks. Eksperimendi käigus kuvatakse kasutajale lause ühe eemaldatud sõnaga. Selle lünga peab ta täitma ühega pakutud valikutest.
Episode-miner leiab Winepi algoritmiga sündmuste jadast sagedamini esinevad episoodid. Näiteks tekstist tihti kasutatud fraasid või sõnadest sagedasemad tähekombinatsioonid. Võimaldab sündmusi rühmitada ja toob näiteid leitud episoodidest.
Pattern-examiner on tööriist suurte tekstihulkade sarnansuse hindamiseks, nende klasterdamiseks ja filtreerimiseks.
- Alexander Tkachenko, Timo Petmanson, Sven Laur: Hybrid Lemmatizer for Estonian. Baltic HLT 2014: 244-247
- Siim Orasmaa, Timo Petmanson, Alexander Tkachenko, Sven Laur, Heiki-Jaan Kaalep: EstNLTK - NLP Toolkit for Estonian. LREC 2016
EstNLTK on Loodud Tartu Ülikoolis, projektijuht on Sven Laur.