v1.6.8全世界最大的中文语料库

hankcs released this 25 Aug 22:38

· 701 commits to master since this release

新模型训练自一亿字的大型综合语料库，是目前全世界最大的中文分词语料库。语料规模决定实际效果，希望如此大规模的语料库能够引起大家对语料库建设工作的重视。欢迎使用NLPTokenizer.analyze接口或PerceptronLexicalAnalyzer体验这一改进。
修复“改进人名UV拆分”造成的问题 fix #932
文本分类的卡方检测失败时不过滤特征 fix #920
废弃HMMSegment
修订简繁词典
新数据包data-for-1.6.8.zip md5=0eae09571f080bd99b81f79bee6c6b62
Portable版同步升级到v1.6.8

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.8</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3