-
transliteracije teksta (preslovi, transliterate).
-
tokenizacije (tokenizuj, tokenize) > zasnovano na NLTK biblioteci
-
podele na rečenice i na odeljke rečenica (podeli, segmentize).
-
čišćenje XML-a iz teksta (ukloniXML, stripXML), sa mogućnošću vraćanja istog.
-
optimizaciju teksta korišćenjem rečnika ()
-
tagiranja vrstom reči (tagiraj, tag), korišćenjem Universal POS i SrpLemTag setova > zasnovano na spaCy biblioteci.
- treniranje novih tagera > zasnovano na spaCy biblioteci.
- popravljanje "ošišanog" teksta
- obeležavanje imenovanih entiteta
- obeležavanje gramatičkih kategorija
`pip install -g git+https://github.com/procesaur/srpski.git`
`pip install -g git+https://github.com/procesaur/srpski.git`
`!pip install git+https://github.com/procesaur/srpski.git`
Uskoro