Skip to content

DavidDavidsonDK/ArmTokenizer

Repository files navigation

ArmTokenizer

Tokenizer for Armenian Language

Usage

#import Tokenizer
>>> from tokenizer import Tokenizer
>>> line = "Խուզարկությամբ հայտնաբերվեց տնկված 208 հատ, մինչ 4մ բարձրության կանեփի թուփ:"
>>> tokenizer = Tokenizer()
>>> tokenizer.tokenize(line)
>>> tokenizer.tokens()

['Խուզարկությամբ', 'հայտնաբերվեց', 'տնկված', '208', 'հատ', ',', 'մինչ', '4', 'մ', 'բարձրության', 'կանեփի', 'թուփ', ':']

See https://github.com/gorarakelyan/Hy-Tokenizer for more information

About

Tokenizer for Armenian Language

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published