Skip to content

python paket za obradu srpskog jezika (u izradi) (u stagnaciji).

License

Notifications You must be signed in to change notification settings

procesaur/srpski

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Srpski - python paket za obradu srpskog jezika

Paket pruža mogućnosti:

  • transliteracije teksta (preslovi, transliterate).

  • tokenizacije (tokenizuj, tokenize) > zasnovano na NLTK biblioteci

  • podele na rečenice i na odeljke rečenica (podeli, segmentize).

  • čišćenje XML-a iz teksta (ukloniXML, stripXML), sa mogućnošću vraćanja istog.

  • optimizaciju teksta korišćenjem rečnika ()

  • tagiranja vrstom reči (tagiraj, tag), korišćenjem Universal POS i SrpLemTag setova > zasnovano na spaCy biblioteci.

Uskoro i:

  • treniranje novih tagera > zasnovano na spaCy biblioteci.
  • popravljanje "ošišanog" teksta
  • obeležavanje imenovanih entiteta
  • obeležavanje gramatičkih kategorija

Instalacija

Linux and Windows
`pip install -g git+https://github.com/procesaur/srpski.git`
update:
`pip install -g git+https://github.com/procesaur/srpski.git`
google colab:
`!pip install git+https://github.com/procesaur/srpski.git`

Uputstvo..

Uskoro

Releases

No releases published

Packages

No packages published

Languages