概述

每年毕业季，各位学子都会使用一个叫做论文查重系统，来检测是否毕业论文存在抄袭嫌疑。如何衡量两篇论文之间的相似度呢？面对类似的问题，人们提出了文档相似度的概念。文档相似度指的是两篇文档之间的相似程度，也被称为文档距离。文档相似度通常是文本聚类、信息检索等NLP任务的基础，常见的计算文档距离的方法包括simhash和余弦距离。

simhash算法

simhash是由Charikar在2002年提出来的，论文名为《Similarity estimation techniques from rounding algorithms》。Google基于simhash在海量网页中进行相似度计算并去重。通常对比两个文档是否相同时，会计算对应的hash值，常见的算法包括md5和sha256。实际使用中，对于检测文档是否被篡改时，使用hash值具有不错的表现。但是当文档内容因为修改少许文字，插入广告甚至只是修改了标点符合和错别字，都会导致hash值改变，可是文档的核心内容并未发生改变。如何使用数学的方法表征这种文档相似性呢？simhash的设计初衷就是使用一种所谓局部hash的方法，可以既可以敏感的识别文档的少许修改又可以识别出文档的大多数内容相同。

simhash的一种典型实现就是将一个文档最后转换成一个64位的字节的特征字或者说simhash值，然后判断重复只需要判断他们的特征字的距离是不是小于3，就可以判断两个文档是否相似。这个距离使用海明距离，即两个simhash值取异或后二进制中1的个数。大家可以结合自身业务特点修改simhash值的位数以及判断文档相似性的海明距离的值。

如图所示，计算6位simhash值典型的实现算法为：

将Doc分词和计算权重，抽取出n个(关键词，权重)对，即图中的(feature, weight)
计算关键词的hash，生成图中的(hash,weight），并将hash和weight相乘，这一过程是对hash值加权
将hash和weight相乘的值相加，比如图中的[13, 108, -22, -5, -32, 55]，并最终转换成simhash值110001，转换的规则为正数为1负数为0

simhash库

simhash具有多种实现，常用的一种已经部署在pip源上了，直接安装即可。

pip install simhash

有兴趣的读者也可以使用源码安装。

git clone https://github.com/leonsim/simhash
cd simhash/
python setup.py 
python setup.py install

数据集

数据集依然使用搜狗实验室提供的"搜狐新闻数据"，该数据来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息。对应的网址为：

http://www.sogou.com/labs/resource/cs.php

为了处理方便，我们提取其中前1万条的正文信息，保存到如下文件中：

../data/news_sohusite_content_10000.txt

数据清洗

为了避免开发环境的编码方式对结果的影响，设置环境的默认编码方式为utf8.

reload(sys)
sys.setdefaultencoding('utf8')

加载加载搜狐新闻语料.

def load_sougou_content():
    #with open("../data/news_sohusite_content.txt") as F:
    # 测试阶段仅加载前1w条记录
    with open("../data/news_sohusite_content_10000.txt") as F:
        content=F.readlines()
        F.close()
    return content

选择其第88篇文章为测试文章，在剩下的语料中寻找与其相似的文档。

#加载搜狐新闻语料
content=load_sougou_content()

#设置测试文章
print "select test data:"
test_news=content[88]
print test_news

测试文档的内容如下：

南方日报讯　（记者／黄少宏　实习生／朱子煜　通讯员／成广伟） “ 学习台北垃圾分类模式 ” 要全面铺开，部分小区试行垃圾费 “ 按袋计量征收 ” ，厨余垃圾专袋收运．．．．．．这是记者昨日从广州市城管委庆祝建党９１周年暨争先创优表彰大会上获悉的。据广州市城管委主任李廷贵透露，７月１０日将召开垃圾分类全市动员大会，并推出一系列政策。在昨日的大会上，针对垃圾围城难题，李廷贵透露，广州市委、市政府已经形成决议，初步决定在７月１０日，在中山纪念堂召开动员大会，进行全面部署，全面动员，正式启动垃圾分类，并将形成一整套法律法规和规范文件、配套实施方案。李廷贵提到，要采取５种垃圾分类技术路线，其中包括按袋计量。据介绍，广州将于今年年底前选择１－２个生活小区试点 “ 垃圾费按袋计量收费 ” 模式，厨余垃圾排放免费，其他垃圾排放计量收费。至于 “ 垃圾费按袋计量收费 ” 政策，将以专用垃圾袋作为收费的工具，市民丢弃垃圾，必须购买政府制作、在指定地点发售的专用垃圾袋盛装，再交垃圾车收运。产生多少垃圾付多少钱，垃圾越少，缴费就越少。除台北 “ 垃圾不落地 ” 模式将在广州进一步推广外， “ 垃圾袋实名制、垃圾费随袋征收 ” 政策也将在广州试点运行。那么，垃圾袋实名制将如何推行呢？据介绍，广州将在政府特制的分类垃圾袋上，印上居民的住宅地段号和房号，以此作为识别垃圾袋出自那家哪户的标志，根据该标志，可以追查垃圾投放的源头。如果居民没有按照规定对垃圾分类，将根据标记信息追查到居民个人。

数据清洗过程，加载我们积累的中文停用词。

def load_stopwords():
    with open("stopwords.txt") as F:
        stopwords=F.readlines()
        F.close()
    return [word.strip() for word in stopwords]

为了避免停用词的影响，清洗阶段我们从数据集中删除停用词。

# 加载积累的stopwords
stopwords = load_stopwords()

# 切割token并清除stopwords
x = [[word for word in line.split() if word not in stopwords] for line in content]

# 切割token并清除stopwords
test_news = [word for word in test_news.split() if word not in stopwords]

# 计算simhash
test_news_hash = Simhash(test_news)

计算simhash值

依次计算语料库中每条记录的simhash，并记录下与测试数据的距离。

sim=[]
# 遍历语料计算simhash值
for news in x:
    hash = Simhash(news)
    score=test_news_hash.distance(hash)
    sim.append( score)

选择距离最短的6的文档和序号并打印，因为需要按照score正序排列，需要设置key参数。

for index, score in sorted(enumerate(sim), key=lambda item: item[1])[:6]:
    print   "index:%d similarities:%f content:%s" % (index, score, content[index])

排名第一的是距离为0的第88号文档，正好就是原文，排名第二的是序号为5644的文档，距离为4，可以发现讲的也是垃圾回收的内容。

垃圾袋印房号可追溯源头，按袋计量收费广州将试点垃圾袋实名制垃圾袋印房号可追溯源头，按袋计量收费 “ 学习台北垃圾分类模式 ” 要全面铺开，部分小区试行垃圾费 “ 按袋计量征收 ” ，厨余垃圾专袋收运 … … 这是记者近日从广州市城管委庆祝建党９１周年暨争先创优表彰大会上获悉的。据广州市城管委主任李廷贵透露，７月１０日将召开垃圾分类全市动员大会，并推出一系列政策。针对垃圾围城难题，李廷贵透露，广州市委、市政府已经形成决议，初步决定在７月１０日，在中山纪念堂召开动员大会，进行全面部署，全面动员，正式启动垃圾分类，并将形成一整套法律法规和规范文件、配套实施方案。李廷贵提到，要采取５种垃圾分类技术路线，其中包括按袋计量。据介绍，广州将于今年年底前选择１－２个生活小区试点 “ 垃圾费按袋计量收费 ” 模式，厨余垃圾排放免费，其他垃圾排放计量收费。至于 “ 垃圾费按袋计量收费 ” 政策，将以专用垃圾袋作为收费的工具，市民丢弃垃圾，必须购买政府制作、在指定地点发售的专用垃圾袋盛装，再交垃圾车收运。产生多少垃圾付多少钱，垃圾越少，缴费就越少。

余弦距离

余弦距离，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。假设向量a、b的坐标分别为(x1,y1)、(x2,y2) ,则对应的余弦距离为：

设向量 A = (A1,A2,...,An)，B = (B1,B2,...,Bn) 。推广到多维:

夹角越小，余弦值越接近于1，它们的方向更加吻合，则越相似。可见余弦距离在0和1之间且约接近1说明越两者越相似。

数据集

数据集也和simhash使用相同的数据集。

数据清洗

数据清洗方式与simhash类似，只不过多了一个TFIDF处理。

# 加载积累的stopwords
stopwords = load_stopwords()

# 切割token并清除stopwords
x = [[word for word in line.split() if word not in stopwords] for line in content]

# 获取词袋
dictionary = corpora.Dictionary(x)

# 制作语料
corpus = [dictionary.doc2bow(doc) for doc in x]

# 进行TFIDF处理
tfidf = models.TfidfModel(corpus)

# 把测试文章转换成tfidf
test_news_vec = [word for word in test_news.split() if word not in stopwords]

test_news_vec = tfidf[dictionary.doc2bow(test_news_vec)]

词袋提取使用的是gensim的库，生成的矩阵为稀疏矩阵。

计算余弦距离

gensim库封装实现了针对稀疏矩阵计算余弦距离的类，直接调用即可。由于需要按照score的倒序排列，所以使用key参数。

index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
sim = index[tfidf[test_news_vec]]

for index, score in sorted(enumerate(sim), key=lambda item: -item[1])[:6]:
 	print   "index:%d similarities:%f content:%s" % (index, score, content[index])

排名第一的是距离为0.965616的第88号文档，正好就是原文，排名第二的是序号为5644的文档，距离为40.907202，可以发现讲的也是垃圾回收的内容。

参考文献

https://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

文档相似度.md

文档相似度.md

概述

simhash算法

simhash库

数据集

数据清洗

计算simhash值

余弦距离

数据集

数据清洗

计算余弦距离

参考文献

Files

文档相似度.md

Latest commit

History

文档相似度.md

File metadata and controls

概述

simhash算法

simhash库

数据集

数据清洗

计算simhash值

余弦距离

数据集

数据清洗

计算余弦距离

参考文献