Releases: hankcs/HanLP
v1.7.6 最后的武士 The Last Samurai
接下来是一个全新的时代,我们的征途是星辰大海。此后1.x分支将继续提供稳定性维护,两个版本面向的场景不同,2.0基于深度学习,面向对精度要求极其高的场景,例如端到端的问答系统解决方案;而1.x基于传统机器学习和特征工程,面向搜索引擎等对速度要求较高的场景。2.0需要时间打磨,1.x将会持续维护,保证稳定性。
- 新增 DocVectorModel.nearest(java.lang.String, int) 方法 fix #1332
- 词法分析器新增空格处理 fix #797
- 修订现代汉语补充词库 fix #1330
- NGramDictionaryMaker等默认UTF-8编码 fix #1320
- WordVectorModel支持自定义Map类型:#1304
- 修复信息熵计算中的除零错误 fix #1366
- 修复Nature的线程安全性
- tfidf,idf的数据可以通过加载idf文件得到
- 开放 CoreStopWordDictionary.dictionary #1356
- 修复加载自定义停用词文件无效
- 兼容数据包data-for-1.7.5.zip 或 分流 或 网盘
md5=1d9e1be4378b2dbc635858d9c3517aaa
- Portable版同步升级到v1.7.6
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.6</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.5《自然语言处理入门》随书代码
- 《自然语言处理入门》新书发布,欢迎查阅随书代码
一本零起点NLP入门书,基础理论与生产代码并重,Python与Java双实现。从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。《自然语言处理入门》由南方科技大学数学系创系主任夏志宏、微软亚洲研究院副院长周明、字节跳动人工智能实验室总监李航、华为诺亚方舟实验室语音语义首席科学家刘群、小米人工智能实验室主任兼NLP首席科学家王斌、中国科学院自动化研究所研究员宗成庆、清华大学副教授刘知远、北京理工大学副教授张华平和52nlp作序推荐。感谢各位前辈老师,希望这个项目和这本书能成为大家工程和学习上的“蝴蝶效应”,帮助大家在NLP之路上蜕变成蝶。
- 论坛蝴蝶效应上线!限时开放注册,用于交流讨论HanLP使用方法和读者反馈,格式比GitHub自由
- DocVectorModel支持自定义分词器、开/关停用词过滤器 fix #1253 (comment)
- 将换行空格等视作CT_OTHER fix #1283
- 修复repeated bisection聚类算法 fix #1260 (comment)
- 让CoreStopWordDictionary.apply返回结果
- 修复Analyzer的enableCustomDictionaryForcing方法 fix #1221
- 新数据包data-for-1.7.5.zip 或 分流
md5=1d9e1be4378b2dbc635858d9c3517aaa
- Portable版同步升级到v1.7.5
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.5</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.4 与OpenCC完全一致的简繁转换
- 无损转换OpenCC词典,结果一致 https://github.com/hankcs/OpenCC-to-HanLP fix #1184
- 停用词典支持热更新:fix #1158
- 修正URLTokenizer中的正则表达式 fix #1188
- 修复自定义词性 fix #1172
- 修正 CollectionUtility.sortMapByValue(java.util.Map<K,V>, boolean) fix #1159
- 修订人名词典
- 修正角色标注时“始##始”的A标签 fix #434
- Add unit tests for com.hankcs.hanlp.utility.MathUtilityTest and com.hankcs.hanlp.algorithm.EditDistance
- 微调bigram fix #1015
- 新数据包data-for-1.7.4.zip 或 海外 或 网盘
md5=0e2e1bfc4da6d9305909ce815cbe5a44
- Portable版同步升级到v1.7.4
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.4</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.3常规维护
- 感知机词法分析器默认使用98年人民日报6个月的大模型
- 优化DoubleArrayTrie fix #1136
- CRFNERecognizer支持在构造时传入自定义命名实体标签,新增addNERLabels方法 @zhangruinan
- 防止ViterbiSegment.dat不必要的初始化
- 修复词法分析器对动态插入的词条的处理 fix #271 (comment)
- 词法分析器seg接口支持自定义词性覆盖统计词性 fix #1156
- 修订拼音
- 新数据包data-for-1.7.3.zip 或网盘
md5=4e4f3695565a75b56427ba4a40731949
- Portable版同步升级到v1.7.3
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.3</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.2新的句法分析模块、多项改进
- 新增基于ArcEager转移系统的柱搜索依存句法分析器,废弃MaxEntDependencyParser
- 调整繁體分詞策略 fix #1059
- 修正卡方检验整型溢出的问题,准确率提升(95.47->96.08) fix #1075
- 使LexicalAnalyzer支持TranslatedPersonRecognition和JapanesePersonRecognition fix #1080
- 提示在线学习不可能学习新的标签
- tokenizer的seg2sentence修改为static
- 词法分析器默认关闭规则系统
- 修正CustomDictionary.reload(); fix #1100
- unigram、bigram微调
- 新数据包data-for-1.7.2.zip 或网盘
md5=2228732bae47b8dc8e410678af72847f
- Portable版同步升级到v1.7.2
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.2</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.1高速缓存、动态词典
- 新增可自定义用户词典的维特比分词器 @AnyListen
- 利用BufferedOutputStream加速缓存生成,快37倍
- 自定义词典兼容含有空格的路径 fix #1025
- 增加isCustomNature方法
- 使热更新产生的缓存文件包含用户词性 fix #1028
- 修复可变DAT的entrySet方法 fix #1038
- 微调ngram,简繁等
- 新数据包data-for-1.7.1.zip
MD5 = 9b8faa7fc7fddb24e27da27bd404126d
- Portable版同步升级到v1.7.1
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.1</version>
</dependency>
感谢所有在issue中提出宝贵建议的用户!
v1.7.0新增文本聚类、流水线分词
- 🚩新增文本聚类模块(k-means和repeated bisection)
- 🚩词法分析器新增流水线模式
- 词法分析器加入规则
enableRuleBasedSegment
#991 - 支持通过JVM的启动参数指定data路径:
java -DHANLP_ROOT=/opt/hanlp
则加载/opt/hanlp/data
#983 - 分词断句支持指定断句颗粒 #1018
CustomDictionary.insert("新词语", "词性标签")
支持省略频次NeuralNetworkDependencyParser
构造函数接受Segment
TextRankKeyword
支持构造自任意分词器- 优化双数组trie树,构建后自动shrink到最低内存 #984
- 修订简繁词典
- 微调ngram和nr模型
- 新数据包data-for-1.7.0.zip
MD5 = 4c396f3039230ddfcef20865264512b1
- Portable版同步升级到v1.7.0
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.0</version>
</dependency>
🎉节日快乐!感谢所有在issue中提出宝贵建议的用户!
v1.6.8全世界最大的中文语料库
- 新模型训练自一亿字的大型综合语料库,是目前全世界最大的中文分词语料库。语料规模决定实际效果,希望如此大规模的语料库能够引起大家对语料库建设工作的重视。欢迎使用
NLPTokenizer.analyze
接口或PerceptronLexicalAnalyzer
体验这一改进。 - 修复“改进人名UV拆分”造成的问题 fix #932
- 文本分类的卡方检测失败时不过滤特征 fix #920
- 废弃
HMMSegment
- 修订简繁词典
- 新数据包data-for-1.6.8.zip
md5=0eae09571f080bd99b81f79bee6c6b62
- Portable版同步升级到v1.6.8
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.8</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.6.7模型默认训练自微软研究院语料库修订版
- 默认感知机分词模型训练自 MSRA Named Entity Corpus
- 词法分析器在低优先级用户词典模式下合并统计分词结果,高优先级模式则最长匹配
- 词法分析器用户词典覆盖词性标注器的结果:#525
- 改进人名UV拆分 fix #880
- 修复 MaxEntDependencyParser fix #914
- 新增TF和TF-IDF统计与关键词提取工具
- word2vec适配IOAdapter与集群 fix #903
- HanLP.extractWords增加更多参数
- 新增NERTrainer.tagSet成员,方便Python用户
- Sentence新增更多语料操作接口
- LinearModel显示压缩进度
- 微调人名、bigram等模型
- 修订简繁词典,根据国家统计局2016行政区划数据校订地名词典
- 新数据包data-for-1.6.7.zip
md5=4da338b7bcf3939a70b8cc16ed338c45
- Portable版同步升级到v1.6.7
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.7</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.6.6解码快10倍的CRF词法分析器
- CRF模型重构为对数线性模型,复用感知机框架的维特比解码算法,速度提高10倍
- 正式废弃CRFSegment,删除
CRFSegmentModel.txt.bin
- 句法分析器默认使用NLPTokenizer
- 修复新Nature框架下角色标注机构名识别问题:#870
- 新旧模型不兼容,请下载新数据包data-for-1.6.6.zip
md5=aea7194670d89f920d59a592568c88ad
- Portable版同步升级到v1.6.6
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.6</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!