搜索引擎原创识别与站内权重继承算法解析

来源：互联网时间：2012-11-13 17:34:00

西部数码-全国虚拟主机10强！40余项虚拟主机管理功能,全国领先!双线多线虚拟主机南北访问畅通无阻!免费赠送企业邮局,.CN域名,自助建站480元起,免费试用7天,满意再付款! VPS主机租用266元/月(1G内存)!

有很多人问过我，说Mr.Zhao啊，百度如何判断伪原创和原创？百度喜欢什么样的文章？什么样的文章比较例如获得长尾词排名？等等诸如此类的问题。面对这些问题，我常常不知如何回答。如果我给一个比较大方向一些的答案，例如要重视用户体验、要有意义等等，那么提问者会觉得我在应付他，他们往往抱怨说这些太模糊。可是我也没法再给出具体的内容，毕竟我不是百度，具体算法我又何德何能的为你们指点江山呢？

为此，我开始写这个“如果是我”系列的文章。在这一系列文章里，我假设如果是我绞尽脑汁的来为网民提供较好的搜索服务，我会怎么做，我会怎么对待文章内容、如何对待外链、如何对待网站结构等等诸如此类的站点元素。当然，本人技术有限，我只能写一点我稍微理解的东西。而百度以及其它的商业搜索引擎，他们有大量比我优秀的人才，相信他们的算法以及处理问题的方式会比我完善很多，而我之所以写这些，无外乎抛砖引玉，希望大家看后，心里有一个大概。毕竟在SEO的道路上走过一段时间后，没有谁能够当谁的老师，一些观点仅供参考。

在此，我要郑重声明，这个系列文章中所有涉及到的思想、算法与程序，均非本人所写，全部是我从一些公开的资料里搜集而得的。同时，相信大家也能理解，如果这些免费公开的东西都能做到如此程度，那么那些商业机密就更不用提了。

好的，现在开始。

如果是我，我会喜欢什么样子的文章呢？我会喜欢我的用户喜欢的文章，如果硬要加判定标准，那无外乎是两种：1.原创且用户喜欢。2.非原创且用户喜欢。在这里，我的态度很明显，伪原创就是非原创。那么用户喜欢什么样的文章呢？很显然，一些新观点、新知识往往是用户喜欢的，也就是说通常原创文章都是用户喜欢的，而且即便用户不喜欢，原创站点作为新鲜内容的制造者，也应该受到一定的保护。那么非原创的文章用户就一定不喜欢吗？诚然否也。一些站点，其内容往往是经过搜集整理后聚合而成的，那么这些站点对用户来说就是有价值的，其相对应的文章理应获得较好的排名。

由此可见，我需要重视两类文章即可。一是原创文章，二是有价值的信息聚合站点下的文章。

首先要明确一点，本文探讨范围仅限内容页，而非专题页、列表页和首页。

那么我在甄别这两类文章之前，我需要先进行信息的采集。本文对于spider程序部分不进行阐述。当spider程序下载下来网页信息后，在内容处理的模块中，我需要先对内容除噪。

内容除噪，并非大家经常性的误以为仅仅除去代码而已。对于我来说，我还要出去页面部分非正文内容的文字。比如导航条、比如底部文字以及各个文章列表。将它们的影响除去后，我将得到一段仅仅包含网页正文内容的文本段落。写过采集规则站长朋友应该知道，这个并不难。但搜索引擎毕竟是一款程序，不可能针对每个站写个类似于的采集规则的东西，所以我需要建立一套除噪算法。

在此之前，我们先明确我们的目的。

上图中很明显内容1是用户最为需要的，内容2是用户可能感兴趣的，其余均是无效的噪音。那么针对于此，我们可以发现如下几特征：

1.所有的调用列表全部是在一个信息块里，这个信息块绝大部分是由标签组成，即便有游离于标签的内容，其文字也基本是固定的，且在站内页面中存在大量重复，较为容易判断。

2.内容2一般紧邻着内容1。而且内容2中的链接锚文本，与内容1存在相关性。

3.内容1部分，是有文字文本内容和标签混合而成，且在通常情况下，文本文字内容在网站网页集合中具有唯一性。

那么，针对于此，我采用广为人知的标签树方式，将内容页进行分解。

从网页的标签布局上来看，网页是通过若干的信息块来提供内容的，而这些信息块又是由特定的标签规划出来的，常见的标签有div ul li p table tr td 等，我们依照这些标签，将网页费解为树状结构。

上图是我手绘的简单的标签树，通过这种方式，我可以非常轻松的识别出各个信息块。然后我设定一定阙值A为内容比重阙值。内容比重阙值为信息块中文本字数与标签出现此处的比值。我设定当网页中信息块内容比重阙值大于A时，才会被我列为有效内容块（此举是为了杜绝过分的多内链，因为如果一篇文章布满内链，则不利于用户体验），然后我再比对内容块中的文本，当其具有唯一性时，此一个或多个内容块的集合，即为我所需要的“内容1”。

那么内容2我要如何处理呢？在讲解处理内容2之前，我先讲解一下内容2的意义。正如我先前所说，如果是一个注重用户体验的聚合性网站，那么他的作用是将现有的互联网内容经过精心的分类与关联，来方便用户更好、更有效的阅读。针对这样的站点，即便其文章不是原创而是从互联网上摘抄的，我也会给予其足够的重视与排名，因为它良好的聚合内容往往更能满足用户的需求。

那么针对聚合站点，我可以通过“内容2”来进行粗略的判断。简而言之，如果是一个良好的聚合站点，首先其内容页必须存在内容2，同时内容2必须占重要部分。

好了，识别内容2很简单，对于内容比重阙值低于某个特定值的信息块，我全部判断为链接模块。我将内容1通过某些方式（具体方式本文后半部分讲解），提取出主题B。我将链接模块中的所有a标签的锚文本分别进行分词，如果所有的锚文本均与主题B相符，则将此链接模块判定为内容2。设定链接阙值C，链接阙值为内容2中标签出现次数除以所有链接模块所出现的a标签次数所得的比重，若大于C，则此网站可能为聚合网站，针对内容排名计算时会引用聚合站点特定的算法。

拓展阅读1开始：

我相信很多SEO从业者刚接触这行时，就听说过一件事，就是内容页面导出链接要具有相关性。还有一件事，就是页面下面要有相关阅读，来吸引用户纵深点击。同时应该还听人讲过，内链要适中，不可太多等。

但很少有人会说为什么，而越来越多的人因为不明其内在道理，而渐渐忽视了这些细节。当然，以前的一些搜索引擎算法在内容上的注重程度不够，也起到了推波助澜的作用。但是，如果从阴谋论的角度上来看，我可以假设出这么一个道理。

绝大部分用户的搜索页面，第一页只有10个结果，除去我自家产品，往往仅剩下7个左右，一般用户最多只会点击到第3页，那么我需要的优质站点其实不到30个就可以最大限度的满足用户体验。那么经过3-5年的布局，逐渐筛选出一些耐得住寂寞和认真做细节的站，这时候我再将这一部分算法进行调整，进而筛选出这些优质站点，推送给用户。当然，在做的过程中还有更多的参考因素，比如域名年龄、JS数量，网站速度等。

拓展阅读2开始：

你们说，为什么当站文章中有大量相同时，会快速引起搜索引擎惩罚呢？这里我说的不是摘抄与原创的问题，而是你站内自己和自己的文章重复。之所以搜索引擎反应这么快，同时惩罚严厉，根本原因就是在你的文章中，他提取不到内容1。

好，经过这一系列处理，我已经获得了内容1与内容2了，下面该进行原创识别的算法了。

现在基本上搜索引擎对于原创的识别，在大面上采用的是关键词匹配结合向量空间模型来进行判断。Google就是这么做的，在其官方博客有相应的文章介绍。这里，我就做个大白话版本的介绍，争取做到简单易懂。

那么，我通过分析内容1，得到内容1中权重最高的关键词k，那么按照权重大小进行排序，前N个权重最高的关键词的集合我命名为K，则K={k1，k2，……，kn}，则每一个关键词都会对应一个其在页面中获取到的权重特征值，我将k1对应的权重特征值设定为t1，则前N个权重关键词对应的特征值集合则为T={t1，t2，……，tn}，那么我们有了这个特征项，就能计算出其相对应的特征向量W={w1，w2，……，wn}。接着我将K拼成字符串Z，同时MD5（Z）则表示字符串Z的MD5散列值。

那么假定我判定的两个页面分别是i与j。

则我计算出两个公式。

1.当MD5（Zi）=MD5（Zj）时，页面i与页面j完全相同，判断为转载。

2.设定一个特定值α

当0≤α≤1的时候，我判定页面相似为重复。

由此，对于原创文章的判断就结束了。好了，苦逼烦闷的枯燥讲解告一段落，下面我用大白话再重新复述一遍。

首先，你的内容一模一样，一个字都不带改的，那肯定是摘抄的啊，这时候MD5散列值就能迅速的判断出来。

其次，很多SEO他们懒，进行所谓的伪原创，你说你伪原创时插入点自己的观点与资料也成，结果你们就是改个近义词什么的，于是我就用到了特征向量，通过特征向量的判断，把你们这些低劣的伪原创抓出来。关于这个，判断思想很简单，你权重最高的前N个关键词集合极为相似的时候，判断为重复。这里所谓的相似包括但不仅仅局限于权重最高的前N个关键词重合，于是构建了特征向量，当对比的两个向量夹角与长度，当夹角与长度的差异度小于某个特定值的时候，我将其定义为相似文章。

备注1开始：

一直关注google反作弊小组官方博客的朋友们，应该看过google关于相似文章判断算法的那篇博文，在那篇文章中，其主要使用的是余弦定理，就是主要计算夹角。不过后来Mr.Zhao又看了好几篇文献，觉得那篇博文应该仅仅是被google抛弃后才解密的，现在大体算法的趋势，应该是计算夹角与长度，所以选择现在给大家看的这个算法。

好的，这里我们注意到了几个问题。

1.α被判定为重复时的取值范围是否可变？

2.内容中如何提取出关键词？

3.内容中关键词的权重值是如何赋予的？

下面我来逐一解答。

1 2 下一页标签：西部数码 SEO 商业搜索引擎

[打印][关闭]