由抄袭造成的重复内容

发表者:Sven Naumann,搜索质量组

原文:Duplicate content due to scrapers
发表于:2008年6月9日星期一,上午3:40

重复内容一直是网站管理员们热议的话题之一,我们觉得很有必要对在各种会议上和网站管理员支持论坛中我们被问及的常见问题作以下统一解答。

在做深入探讨之前,我想先简要谈谈网站管理员们经常担忧的一个问题:在大多数情况下,网站管理员往往对擅自抄袭和传播自己内容的第三方无能为力。我们知道这并不能归咎于网站管理员们,这也就意味着同一内容出现在许多不同网站其本身并不理所当然地被认为是违反了网站管理员指南。这仅仅导致了Google必须增加一个额外步骤,即鉴别内容的原创来源,而这正是Google所擅长的,在大多数情况下原创内容源都能被正确地识别出来,从而不会给发布真正原创内容的网站带来负面影响。

一般而言,我们把网站内容雷同问题主要分为两种情况:
  • 站内内容重复,比如同一内容(经常是无意识地)在您的网站内重复出现。

  • 站间内容重复,比如您网站的内容(同样,经常也是无意识地)在其他网站重复出现。
对于第一种情况,您可以亲自动手解决Google对您网站上的重复内容进行索引的问题。您可以阅读 Adam Lasnik 发表的Deftly dealing with duplicate content以及Vanessa Fox 发表的Duplicate content summit at SMX Advanced。这两篇文章都提供了一些很好的建议,帮助您解决站内内容重复的问题。这里还有一个特别的建议帮助您避免站内内容被重复索引:您可以将您希望被抓取的URL序列包含在您的站点地图文件中。遇到包含同一内容的不同网页时,这么做有助于我们准确收录您真正想提供给用户的那部分内容。其他有关于站内内容重复的信息您可以参阅讨论此主题的有关“帮助中心文章”。

第二种情形可能是有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。同时,网络代理服务器也经常抓取通过代理方式访问的网站的部分内容。当在不同网站遇到相同内容的时候,我们会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。这也意味着,当您发现有人剽窃了您的内容时,您大可不必过分担心它对您的网站在谷歌搜索排名上的负面影响。

如果您将自己网站的内容与他人分享, 但同时还希望自己的网站被识别为原创来源的话,您需要请合作伙伴在其网站内容上添加指向您原创内容的链接。您也可以在Vanessa Fox最近发表的文章Ranking as the original source for content you syndicate找到其他有关处理这一问题的建议。

有些网站管理员会有这样的疑问: 什么原因会导致有时候抄袭内容反而比原创内容的排名还要高呢?这应该是个特例,但如果您真的遇到这种情况,请您务必做到:
  • 检查一下您的内容是否能被我们抓取。您可能无意间在 robots.txt文件中阻止了部分内容被正常访问。

  • 您可以检查一下Sitemap文件,看看您自己是否改动过那些被抄袭的特定内容。

  • 检查您的网站是否符合网站管理员指南。
最后我想指出的是,在绝大多数情况下,含有雷同重复内容并不会对您的网站在谷歌搜索上的排名有负面影响。这些内容可能已经被过滤出去了。如果您参照上述提到的一些建议,您会了解到怎样才能更精确地控制搜索引擎抓取的内容以及出现在索引中的内容版本。只有被确认为蓄意或恶意抄袭时,雷同重复内容才有可能会被视为违反了网站管理员指南。

如果您想更深入地讨论这一话题,请浏览我们的网站管理员支持论坛

如果希望阅读本文德语版,请点击阅读“Duplicate Content aufgrund von Scraper-Sites”。

Labels: , ,



20个评论:

声明:以下评论仅代表发表者观点。

我记得以前我因为解决了一个木马病毒,然后在我的博客上写了一篇文章,在搜索结果上排名第一,但是很快我的文章就被别人抄袭了,但是搜索引擎并没有判断出我的是原创,而把我的文章直接排除在前三,反而抄袭的排在了第一,很是郁闷

复制,对于信息的传播有很大的好处,如果每个人都不转载文章,那岂不是文章没有人知道了

现在互联网的信息重复度太高了,导致原创文章的作者权益都没有保障.
唉!

一叶:Google有识别重复内容的算法,虽然它不是100%的准确。如果你想确保你的搬家之后的文章为原创,最好的办法是使用301重定向。

深度消失: 不是很清楚你的具体情况。要让搜索引擎准确的判断原创,保持整个网站的高原创性是重要的因素之一。

我通常写一篇原创文章喜欢先贴到某两个常去的论坛,然后才贴回自己的网站。这样不知道会不会被认为抄袭.....

Vincent,你这样做即使是你的网站访客都不知道你的内容是原创还是抄袭的。如果你实在要这么做,请在你的论坛文章中加一个链接到你的网站的文章。

目前的重复数据非常厉害,2007年8月的数据,我整理了某个行业的20万篇文章,把这个行业的所有数据都抓了下来。经开发专门程序来计算,几天后,发现了大约15万篇重复。

我的网站是2008年4月份开通的,开通之后,我一直每天都在给网站保持正常均匀频率的内容更新。

但是为什么,经过了3个月的沙盒期之后,搜索文章的标题、网站名称依然是没有找到我的网站。请问这是什么原因?

我的网站绝无任何的SEOSPAM,我只想问谷海一粟几个问题?
1.我要面临这种动荡的局面到什么时候?
2.什么时候,搜索文章标题,才能找到我的文章?
3.我需要做什么?我能做的已经是积极在更新高质量原创内容和高质量外链了。

不明白为什么有的网站的内容连关键词都是抄写的我的,可人家网站排在前面了?

Blogger 一叶发表于 2008年7月11日 下午9:33

复制,对于信息的传播有很大的好处,如果每个人都不转载文章,那岂不是文章没有人知道了

建议以链接方式分享,而非转载。

SEOChen: 你的网站看上去像是在你开通之前就被惩罚了。你也许可以通过网站管理员工具来要求重新审核。

是否可以认为,原创和PR发生矛盾时,PR 的优势是绝对的。

不知道对于相似文章如何处理?
常有些站长复制文章后,修改一点又发上来了

谢谢谷海一粟的回复。

我已经在网站管理员工具里面提交了非常详细的资料,申请重新审核。

想问一下,除此之外,我还能做什么吗?

我想类似我这样的情况,应该是很常见的情况,请问谷歌在这方面有没有特殊的一个考虑,来保证这方面的公正性呢?

SEOChen: 你可以到Google网站管理员支持论坛贴一下你的网址,让有经验的其他用户以及我们的管理员帮你看一看。

handan,你应该看看国外都是如何转载的,基本上都是一链接的形式转载,顶多引用小部分的原文内容。这样的转载也可以让信息得以传播。

主要是独立博客或小网站被门户网站或大网站转载的问题,常常是门户网站排在前面,有时就是添加了链接也没用。似乎是按网站大小排列的?

看了之后觉得有些放心了,毕竟有时候重复内容是无意的。

王磊:请继续在你的新博客上建立原创内容。你可以通过网站管理员工具来要求谷歌删除你的旧博客的内容。当然,最好的办法是把你的旧博客301重定向到新博客。

怎么辨别原创与非原创呢?能不能深刻地阐述一下啊

发表评论



Copyright © 2007 Google Inc. All rights reserved.
隐私政策 - 服务条款