百度新推出“飓风算法”来打击采集网站
2017年7月7日,百度正式推出“飓风算法”,从官方文档中来看,飓风算法的打击对象是站点,而不是网页,主要是针对以恶劣采集为内容主要来源的网站,而不是所有包含恶劣内容的站点。看上去挺恐怖的,百度的打击还是挺怕人。其实百度说得挺好听的,基本上采集的站点都要小心,因为这个算法是搜索引擎自身来判断的,我以前就有一个网站中招,后来就开始不想做网站了,现在重新做起来的话,一定要注意百度等搜索引擎,看来以后采集内容还要注意,采集看来不太容易了。
哪些内容算是恶劣采集?恶劣采集内容,一般是指没有花费时间,精力,专业能力,人工整合的内容,或者说对用户没有任何附加价值的内容。(我对于这些最了解了,曾经我采集过百度知道的内容,在老虎头上拔毛,最后的下场很惨,不过奇怪的事情就是我发现好几个网站都采集过百度知道,可是他们却没有什么事情,当然不知道现在这些网站还存不存在了,可能时间长短的问题)
下面摘录这部分内容,并且归纳出来下面几种类型:
1、从其他站点采集的内容
包括整个页面内容都是采集、主题内容是采集,或者多篇采集拼凑成的内容。这种类型内容很容易被识别。这样的采集就连我也知道会出问题,我的网站曾经就出现过这样的问题,想看上去有人气,就采集发布的内容比较多,结果很是悲剧。
2、采集之后轻度加工的内容
包括修改了部分词语,修改了部分句子,或者使用单词批量替换的形式(部分伪原创工具)。这种类型的识别难度稍微大一点。那时候没有注意过伪原创,也许自己要多花费一点时间,加工一下采集的内容,也许结果不会这样惨,不过还是会出问题的,现在百度对于采集的识别还是挺厉害的。
3、从某些动态站点采集的内容
包括采集其他搜索引擎的搜索结果,采集新闻feed流。其实这种情况真的很多,大部分新闻网站都是这样来的,不过这些网站的权重很高,人气很高,浏览量也很大,所以百度搜索引擎可能有过滤,所以他们不会有事。
现在根据上面的内容,还有百度官方的文档,我再来说一说哪些内容不算是恶劣采集?我想大部分朋友会问这样一个问题,为什么有些网站也是采集的,但没有受到影响,比如某doc、某浪。其实只要做到某个要点,就不算是恶劣采集,这个要点就是:给用户带来附加价值,附加价值有站点增益和内容增益两种。这个时候可以引用百度搜索技术博客《浅谈互联网页面价值》的一段内容:
某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。
同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名、稳定性、速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。
综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。这里的要点是:页面价值、增益,因此说,只要能够带来站点增益,内容增益,给用户带来附加价值,那就表明这个网页有其独特的价值,是不会被飓风算法命中的。如果我的小站要是采集的话,即使自己使用伪原创工具来修改文章的内容,也有可能中招,所以还是自己先好好地写出几篇文章,以后适当的伪原创几篇文章,采集就不用去想了,自己的时间虽然不多,不能因为采集这样情况被打入地狱,那样就不好了。
百度还真不让采集的人活啊,不过道高一尺,魔高一丈,自然有人有办法对付这个算法,不过我们也没有这样的技术,还是自己努力去更新博客
2017-08-19 15:56