Skip to content

guimaxing/NewsSimilarityCalculation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NewsSimilarityCalculation

文本相似度计算

原理: 基于gensim模块的中文句子相似度计算、 过程: 1.文本预处理:中文分词,去除停用词 2.计算词频 3.创建字典(单词与编号之间的映射) 4.将待比较的文档转换为向量(词袋表示方法) 5.建立语料库 6.初始化模型 7.创建索引 8.相似度计算并返回相似度最大的文本 算法: 余弦相似度

About

文本相似度计算

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages