网站页面相似度查询算法

时间:12-12-02 栏目:SEO原理 作者:福清seo 评论:0 点击: 2,917 次

SEO博客两款国外SEO优化工具推荐这篇文章中,介绍了一个页面相似度查询的工具页面,即Similar Page Checker。这个SEO工具很好用,输入两个你要比较的页面,即可以查看出两个页面的相似程度,这个工具可以让你尽量降低页面相似度,以免被搜索引擎惩罚。

网站优化也需要实现这个功能,SEO博客团队正在研发一个类似的SEO神器。其实,这个功能看似简单,但却包含了不少核心算法的东西在里面。本篇SEO博客就这个相似度的问题,引申出一些相似度查询算法,列表如下:

1、cosine similarity。它是评测两个向量的相似度,通过两个夹角的cos值来实现。给定向量A和B,cosine相似度θ就可以通过以下公式计算:

cosine similarity算法

2、Jaccard similarity。即Jaccard Index,是用来统计样本集合的相似度的,它采用两个集合的交集除以两个集合的并集来实现:

Jaccard similarity算法

3、Dice’s coefficient。

4、Overlap coefficient。类似Jaccard index。

5、Edit distance。即Levenshtein distance,在信息理论或者计算机科学中,是用来在文本阵列中测量两段文字的不同量。

6、Plagiarism detection。即剽窃检测。随着互联网的高速发展,人们对于信息和文章的来源获取变得异常方便,而抄袭就变得一下子那幺容易,剽窃检测就变得尤为重要起来,剽窃检测一般用于科学论文的鉴定、艺术设计的评测,以及源代码的比较等方面。相关文章:原创SEO博客如何应对抄袭的现状 再议原创文章被抄袭怎么办

SEO技术关于该算法应用场景及引申:

1、代码比较。做过开发的人肯定知道一些代码比对工具,这个在版本管理工具中很重要,比如svn中check下来的代码,经过修改后,你想提交到服务器,在提交之前,你需要跟现有版本做一下比对,确认一下修改的具体代码片段,以此来作个验证,是个很好的习惯。当然,在linux中,也有这样一个工具,叫diff,它可以让你通过命令方式来比较两个文件的不同之处。

2、作业检查。老师布置给学生作业,如何检查学生的抄袭现象?通过计算机的使用,使用文本相似度比较,就可以很容易得出答案。

3、版权保护。如何拒绝剽窃和抄袭现象,更好的保护知识产权,通过文本相似度的比对,也可以很轻易的做到。

4、指纹匹配,人脸识别。对于指纹以及人脸识别,其实就涉及到了图形图像的相似度比对中来了,这里可能引申的有点大,但是SEO技术认为算法还是有其相同之处吧。推荐阅读:搜索引擎判断原创与伪原创算法

5、文本数据挖掘。即text mining,也可以说text analytics,它是一个从文本海量数据中挖掘出高质量的信息的一个过程。

本文SEO顾问属于泛泛而谈,希望SEO顾问服务团队能够加快研究步伐,将页面相似度工具尽快研发出来。注:相关算法建议阅读维基百科。

声明:本文由(SEO博客)版权所有,禁止转载,文章链接:网站页面相似度查询算法

网站页面相似度查询算法:等您坐沙发呢!

发表评论

不解 砸舌 伤心 邪恶 惊呼 开心 害羞 大笑 汗颜 惊讶 头晕 酷毙 开心 发怒 别扭 白眼 眨眼 思考 扭头 中立 哭泣 尴尬

---=====【福清人在路上】=====---
福清SEO博客★福清人自己的博客
10年专注互联网★5年实战品牌营销
SEO顾问:www.fqseo.org
品牌营销:www.pinpaiyingxiao.org
新浪微博:weibo.com/61953117
微信号:61953117【私人】
公众号:福清人在路上(ID:fqrzls)

微博江湖