v1.6.8全世界最大的中文语料库
- 新模型训练自一亿字的大型综合语料库,是目前全世界最大的中文分词语料库。语料规模决定实际效果,希望如此大规模的语料库能够引起大家对语料库建设工作的重视。欢迎使用
NLPTokenizer.analyze
接口或PerceptronLexicalAnalyzer
体验这一改进。 - 修复“改进人名UV拆分”造成的问题 fix #932
- 文本分类的卡方检测失败时不过滤特征 fix #920
- 废弃
HMMSegment
- 修订简繁词典
- 新数据包data-for-1.6.8.zip
md5=0eae09571f080bd99b81f79bee6c6b62
- Portable版同步升级到v1.6.8
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.8</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!