- google scholar
unknown OR new word detection OR identification
- cnki
新词发现 新词识别 新词检测
- 把StringFreq里面的计算左右熵的算法改一下
- 不算pmi,算pmi花了很多时间,而且没有用到
- 现在把字母串的过滤功能去掉了,对连字符拼接的字母串的识别效果不是很好
git clone https://github.com/chiyang10000/newWordDetection
cd newWordDetection
mvn package
./tar.sh
cd tar
./init.sh # 安装crfpp
java -cp target/detect.jar main.Main -i <输入文件>
接下来当前文件会生成per.txt, loc.txt, org.txt, new.txt四个文件
分别对应输入文件中人名,地名,机构名,新词。
其中新词指的是人民日报语料2000年前3个月中未出现的词。词表见data/corpus/wordlist/renminribao.txt.wordlist。第一行为出现的词,第二行为其出现的频率。
可修改此文件来减少或者增大基本词表。
输出文件中,第一行为对应的人名,地名,机构名,新词,第二行为他们所在的上下文,其他各行为调试信息
右键iml文件导入,右键pom.xml导入。
git clone https://github.com/chiyang10000/newWordDetection
cd newWordDetection
mvn package
./init.sh # 安装 crfpp
java -server -cp target/*with-dependencies.jar <main.class>
- dataProcess.Corpus
生成数据
- crfModel.charBased
训练命名实体识别模型
- crfModel.wordBased
训练未登录词识别模型
- evaluate.Test
运行测试
- data/
原始数据和缓存数据
- data/model/
放的是训练出来的模型文件
- data/raw/
放原始数据文件
- data/crf-template
放crfpp模板文件
- data/corpus/
放缓存的词表信息
- data/jupyter
从info/生成报表
- data/test
运行dataProcess.Corpus之后的生成的测试文件
- data/model/
- library/
ansj的字典文件,用来修正一些分词错误
- tmp/
运行时的一些临时文件
- info/
运行的一些结果统计
- target/
maven编译生成的jar包
- tar.sh
打包运行时的必要文件到tar这个文件夹里面
- config.properties
配置运行时的参数