Skip to content

Latest commit

 

History

History
14 lines (11 loc) · 509 Bytes

README.md

File metadata and controls

14 lines (11 loc) · 509 Bytes

judou

“句读”中文分词器

算法

  • 分别基于 bmm, fmm 等机械匹配算法实现分词
  • 分别基于一元文法和二元文法,使用前缀词典构造所有可能成词情况的 DAG 图,利用动态规划算法实现最大概率分词
  • 基于 HMM 模型,利用 Viterbi 算法实现由字构词的分词方法

TODO

  • 实现双数组前缀树存放词典
  • 重构项目,设计cut接口
  • 导入更多词典及语料
  • 对不同算法进行评价