咨询电话:
15628812133
10
2018/06

来自百度官方的说明:重复页面的处理

发布时间:2018-06-10 09:22:00
发布者:xueye
浏览量:
0

问:网站最近遇上个全站克隆+实时采集的小偷站,搞我的没办法。百度会惩罚克隆网站吗?

百度答:百度有专门的算法识别克隆网站。看你说的这种情况,更象是对方将域名直接指向到你的服务器上了,可以直接在服务器端拒绝所有非正常域名的访问。

问:自己的原创内容排名常常比不过转载或抄袭的,站长能做些什么预防或改进?

百度答:这个,只能说百度的策略还不是很完善,我们也一直在改进。另外,从用户体验角度,有些转载未必比原创差。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。

问:百度如何面对很难处理的重复页面,比如列表页有分页,文章页也有分页,他们的meta都是相同的,这样会不会当重复页面处理。同时比如一个 论坛有两篇相同的帖子都收录,会影响先收录的排名吗?

百度答:1,判定页面重复的算法很复杂。可以肯定的是,仅meta相同,是不会被判为重复的。

2,相同两个帖子被收录(url可能不同),低权重的页面会不被建索引,或者被高权重页面类聚掉。

问:百度对重复内容是如何处理的?

百度答:这的确是个显著的问题。这表明我们在这方面的策略上有极大改进空间。这类积重的问题,非一朝一夕能搞定,需要伤筋动骨的动动手术才行。所以请大家耐心。

另外需要说明的是,搜索引擎的排序出发点,是用户的搜索体验。虽然说,很多时候尊重原创和用户体验是一致的。但是,毕竟也有一些case,转载的体验会比原创更好。这时候原创者的排序未必会高于转载者。但无论如何,原创者的应该以另外一种方式被肯定,而不是简单的被聚合掉。

问:百度如何看待伪原创?

百度答:“伪原创”就是“非原创”。对非原创的策略,同样适用于伪原创。归根结底,这是一个技术实现程度问题,而不是策略思路问题。

问:如何处理百度从别的站抓取带有广告参数的url?

百度答:没有什么坏的影响。另外,我们也计划推出一个简单的工具,方便大家处理这样的无效参数,届时会知会大家。

问:被小偷程序高度采集怎么办?百度有什么识别的方法没?

百度答:对于恶劣的小偷采集站,我们设有专门的识别并在逐步完善。


关键词:
返回列表