百度新推出“飓风算法”来打击采集网站

日新博客网站营运 07-19 3984 1

百度新推出“飓风算法”来打击采集网站

2017年7月7日，百度正式推出“飓风算法”，从官方文档中来看，飓风算法的打击对象是站点，而不是网页，主要是针对以恶劣采集为内容主要来源的网站，而不是所有包含恶劣内容的站点。看上去挺恐怖的，百度的打击还是挺怕人。其实百度说得挺好听的，基本上采集的站点都要小心，因为这个算法是搜索引擎自身来判断的，我以前就有一个网站中招，后来就开始不想做网站了，现在重新做起来的话，一定要注意百度等搜索引擎，看来以后采集内容还要注意，采集看来不太容易了。

哪些内容算是恶劣采集？恶劣采集内容，一般是指没有花费时间，精力，专业能力，人工整合的内容，或者说对用户没有任何附加价值的内容。（我对于这些最了解了，曾经我采集过百度知道的内容，在老虎头上拔毛，最后的下场很惨，不过奇怪的事情就是我发现好几个网站都采集过百度知道，可是他们却没有什么事情，当然不知道现在这些网站还存不存在了，可能时间长短的问题）

下面摘录这部分内容，并且归纳出来下面几种类型：

1、从其他站点采集的内容

包括整个页面内容都是采集、主题内容是采集，或者多篇采集拼凑成的内容。这种类型内容很容易被识别。这样的采集就连我也知道会出问题，我的网站曾经就出现过这样的问题，想看上去有人气，就采集发布的内容比较多，结果很是悲剧。

2、采集之后轻度加工的内容

包括修改了部分词语，修改了部分句子，或者使用单词批量替换的形式(部分伪原创工具)。这种类型的识别难度稍微大一点。那时候没有注意过伪原创，也许自己要多花费一点时间，加工一下采集的内容，也许结果不会这样惨，不过还是会出问题的，现在百度对于采集的识别还是挺厉害的。

3、从某些动态站点采集的内容

包括采集其他搜索引擎的搜索结果，采集新闻feed流。其实这种情况真的很多，大部分新闻网站都是这样来的，不过这些网站的权重很高，人气很高，浏览量也很大，所以百度搜索引擎可能有过滤，所以他们不会有事。

现在根据上面的内容，还有百度官方的文档，我再来说一说哪些内容不算是恶劣采集?我想大部分朋友会问这样一个问题，为什么有些网站也是采集的，但没有受到影响，比如某doc、某浪。其实只要做到某个要点，就不算是恶劣采集，这个要点就是：给用户带来附加价值，附加价值有站点增益和内容增益两种。这个时候可以引用百度搜索技术博客《浅谈互联网页面价值》的一段内容：

某人发表了一篇针对某新闻事件的原创博客，随后被新浪转载到了新闻频道。从描述的内容上讲，这是一种重复。但这种重复仅仅是主体内容上的重复，一方面它的转载带来了访问速度、稳定性等方面的增益，并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面，它在转载过程中可能会改变页面的标题，而且依托其受众，在转载页面上，还有可能出现更多的有价值评论和回复等，还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化，新浪的这次转载也是有价值的，其稀缺度也是较高的。

同样，反过来说，如果转载的网站相当不知名，则其无法带来站点名、稳定性、速度的增益。更有甚者，转载之后在页面上加入大量广告妨碍阅读，或者只转载了内容中不完整的一部分，这样的转载，或者说采集，就是纯重复的，与采集源相比，就是没有检索价值的了。

综上所述，对于主体内容重复的页面，我们应该评价其是否存在站点增益和内容增益，只有对于大量完全无增益的重复页面，我们才应该认为其稀缺度较低。这里的要点是：页面价值、增益，因此说，只要能够带来站点增益，内容增益，给用户带来附加价值，那就表明这个网页有其独特的价值，是不会被飓风算法命中的。如果我的小站要是采集的话，即使自己使用伪原创工具来修改文章的内容，也有可能中招，所以还是自己先好好地写出几篇文章，以后适当的伪原创几篇文章，采集就不用去想了，自己的时间虽然不多，不能因为采集这样情况被打入地狱，那样就不好了。

网友评论1条

沙发

茅涤生:
百度还真不让采集的人活啊，不过道高一尺，魔高一丈，自然有人有办法对付这个算法，不过我们也没有这样的技术，还是自己努力去更新博客
2017-08-19 15:56 [回复]

百度新推出“飓风算法”来打击采集网站

网友评论1条

发表评论

边栏标签