Skip to content

Latest commit

 

History

History
107 lines (61 loc) · 4.44 KB

README_v14.md

File metadata and controls

107 lines (61 loc) · 4.44 KB

EstNLTK v1.4

EstNLTK (NLTK ehk Natural Language ToolKit) on peamiselt Pythonis kirjutatud kogumik teeke eestikeelsete tekstide töötluseks.

EstNLTK eesmärkideks on olemasolevate keeletehnoloogia tööriistade omavaheline liidestamine ja kättesaadavaks muutmine ning uute loomine.

Huvitavamaid tööriistu, mis projekti käigus on valminud:

estnltk

EstNLTK kui projekti tuumaks on Pythoni estnltk teek, milles sisaldub:

  • eesti keele sõnestamine ehk sõnapiiride tuvastamine ehk üksustamine (tokeniseerimine)
  • eesti keele lausestamine ehk lausepiiride tuvastamine
  • eesti keele osalausestamine ehk osalausepiiride tuvastamine
  • eesti keele lemmatiseerimine ehk sõnade algvormide (lemmade) määramine ning morfoloogiline analüüs ja ühestamine (liidestudes mugavalt vabamorfiga)
  • sõnaliikide määramine
  • eesti keele morfoloogiline süntees (etteantud lemma ja grammatilise vormi põhjal õige sõnakuju tuletamine)
  • nimeolemite e nimega üksuste tuvastamine eestikeelsest tekstist (NER ehk Named-entity recognition)
  • liidestus eesti Wordnetiga
  • eestikeelsete ajaväljendite tuvastamine ning nende semantika esitamine (TIMEX3 formaadis)
  • pindsüntaktiline analüüs ning sõltuvussüntaktiline analüüs:
    • masinõppepõhine analüüs MaltParseri abil
    • reeglipõhine analüüs mooduli EstCG abil

Texts-viewer

Veebitööriist tekstide käsitsi märgendamiseks ning eraldusmustrite testimiseks. Võimaldab teksti kiiresti mustrite alusel märgendada ning hiljem uusi mustrieraldustööriistu olemasolevate annotatsioonide vastu testida.

Volcanoplot

Käsureatööriist html väljundiga, mis võimaldab visuaalselt võrrelda kahte csv-kujul sagedusloendit. Näide kasutamisest postimehe artiklite põhjal.

Cluster-labelling-plot

Jupyter-põhine tööriist andmepunktiklastrite klassifitseerimiseks.

Textclassifier

Ner-tagger

Ner-tagger on veebitööriist, mis aitab märgendada ja annoteerida teksti. Eelkõige mõeldud nimeolemite märgendamiseks.

gap-tagger

Gap-tagger on veebipõhine tööriist lauselünga-eksperimentide läbiviimiseks. Eksperimendi käigus kuvatakse kasutajale lause ühe eemaldatud sõnaga. Selle lünga peab ta täitma ühega pakutud valikutest.

episodeminer

Episode-miner leiab Winepi algoritmiga sündmuste jadast sagedamini esinevad episoodid. Näiteks tekstist tihti kasutatud fraasid või sõnadest sagedasemad tähekombinatsioonid. Võimaldab sündmusi rühmitada ja toob näiteid leitud episoodidest.

pattern-examiner

Pattern-examiner on tööriist suurte tekstihulkade sarnansuse hindamiseks, nende klasterdamiseks ja filtreerimiseks.


Avaldatud artiklid


EstNLTK on Loodud Tartu Ülikoolis, projektijuht on Sven Laur.