Skip to content

naymaraq/ArmTokenizer

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

39 Commits
 
 
 
 
 
 
 
 

Repository files navigation

ArmTokenizer

Tokenizer for Armenian Language

Usage

#import Tokenizer
>>> from armtok import Tokenizer
>>> line = "Խուզարկությամբ հայտնաբերվեց տնկված 208 հատ, մինչ 4մ բարձրության կանեփի թուփ:"
>>> tokenizer = Tokenizer()
>>> tokenizer.tokenize(line)
>>> tokenizer.tokens()

['Խուզարկությամբ', 'հայտնաբերվեց', 'տնկված', '208', 'հատ', ',', 'մինչ', '4', 'մ', 'բարձրության', 'կանեփի', 'թուփ', ':']

See https://github.com/gorarakelyan/Hy-Tokenizer for more information

About

Tokenizer for Armenian Language

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%