文件robots.txt的新增特性及REP meta标签

发表者: John Blackburn (站长工具组),Matt Dougherty, 搜索质量组

原文: New robots.txt feature and REP Meta Tags
发表于: 2007年8月15日,星期三,下午4时01分

我们已经改进了站长中心的分析工具,使之能理解网站地图(sitemap)的声明和相关的URL。较早的版本并不认识网站地图,且仅仅理解绝对的URL;其他的任何东西都被报错成“不理解你的语法”。现在改进后的版本会告诉你网站地图的URL和范围是否正确。您还可以对相关的URL测试并少了许多输入工作。

现在生成的报告也好多了。你可以在一行中知道多个问题的答案(如果有的话)。不像早期版本,一行仅第一个遇到的问题给出答案。同时,我们也在其他用以分析和验证的功能上取得了改进。

假设你负责域名www.example.com,你希望搜索引擎索引你网站的除/images文件夹之外的一切内容。您还想确保你的网站地图被搜索引擎知道,那么你可以使用以下内容作为你的robots.txt文件:

disallow images

user-agent: *
Disallow:

sitemap: http://www.example.com/sitemap.xml

你可以访问站长中心,使用robots.txt分析工具对你的网站进行测试,用这两个URL作测试:

http://www.example.com
/archives

站长工具的较早版本将会报错:



改进版会告诉你关于robots.txt文件的更多信息:



你可以在http://www.google.com/webmasters/tools看到以上信息。

我们还希望确保你听说过新的unavailable_after元标签,该标签由Dan Crow数周前在Google官方博客中宣布。该标签可增加你的站点和谷歌的googlebot间的互动。试想,对www.example.com,有时你有一个临时性的新闻故事,限时公司促销,或一个宣传页,你可以对特定页面指定确切的日期和时间,来阻止被抓取和索引。

让我们假设你的一个促销活动有效期截至2007年年底。在www.example.com/2007promotion.html的源码开始,你可以使用以下行:

<META NAME="GOOGLEBOT"
CONTENT="unavailable_after: 31-Dec-2007 23:59:59 EST">


另一个令人振奋的消息是新的X-Robots-Tag指令。它增加了机器人排除协议(REP) META标签,该标签为非HTML网页提供支持!你终于可以控制对你的录像,电子表格,及其他索引文件类型的索引,就像控制对HTML页面的索引一样。还是上面的例子,比方说你的宣传页面是PDF格式。在文件www.example.com/2007promotion.pdf 中,你可以增加以下行:

X-Robots-Tag: unavailable_after: 31 Dec
2007 23:59:59 EST


请记住,REP META标签可用于实现针对页面索引控制的noarchive,nosnippet,及现在的unavailable_after标签。这和robots.txt不同,robots.txt是对整个域名进行控制的。我们是应博客们和网站管理员的要求而增加这些特性的,请试用。如果你有其他的建议,也请随时提出。想问一些问题?请在我们的网络管理员帮助组里提问。

Labels: ,



10个评论:

声明:以下评论仅代表发表者观点。

请教您们两个问题:1、在GOOGLE网站管理工具的控制后台验证网站时出现以下提示:“我们试图访问验证文件,但由于 DNS 错误未能访问您的域。原因可能是服务器关闭,或者到域的 DNS 路由有问题。请确保您的域可正确解析,然后重试。”请问这是什么原因呢!我们刚刚换了空间!是域名的问题还是空间的问题呢!请指教!谢谢!
2、网站改版后,原来的网站Url都没有了,这就造成了404错误,应该如何做好呢!请给予指教!谢谢!

请各位高手给予指点,在下感激不尽!在这里留言也可,或者把答案发到我的E-mail:wuhanmhj@126.com 谢谢!

检测到无效的 Sitemap 引用
是怎么回事呢?
robots写法和sitemap文件是正确的

回薰香王子:
对第一个问题,Google的提示说得相当清楚,你应该找你的网络服务提供商解决问题。对第二个问题,你应该使用301重定向,把原来的url定向到现在你要的url。

回xingxing:
一般来说,Google会给出一个在sitemap中的具体错误。请你搜索一下我们的“网站管理员支持中心”看看有没有对应的解决方案。

已经在robots.txt中加入sitemap,但是在
网站管理员工具/分析 robots.txt 中好像不认这个。
行 19 : Sitemap: http://pcxingxing.net.ru/sitemap.xml.gz 检测到无效的 Sitemap 引用

关于“检测到无效的 Sitemap 引用”,我认为仍然是webmaster console的bug。是这Google这个工具仍然还没有支持sitemap在robots中的引用

这个问题我已经等了有半年多了。写法、UTF-8编码、全半角符号、sitemap文件本身的验证等等,能想到的细节我都仔细的反复check过,最后我只能得出这是google这个工具还没有支持这个sitemap 0.9协议新特性的结论。

我通过构造URL进入到英文版的网站管理员工具看过了,确实能够正确识别sitemap了。但是中文版仍然不行。我猜测这很可能是一个比较低级的错误。
写在这里了:
http://www.sucirst.com/index.php/news/58/
希望谷歌的工作人员能尽快修复此BUG。:D

关于中文中的“检测到无效的Sitemap引用”错误,确实是是webmaster console的bug。如果你选择英文界面时没有错误报告,说明你的Sitemap没有错误。谢谢你们的报告,我们正在更改。

我们的站长工具组的工程师检查了您的网站。他们的结果是:你提交了http://www.whsjsoft.com/sitemap.xml, 而不是http://soft.whsjsoft.com/sitemap.xml. 从谷歌一侧看不到任何错误提示。请您再查一遍。

我们的算法在显示搜索结果时,会考虑用户所用的域名。例如:在google.com.tw中搜索可能用户更感兴趣的是台湾的网页。而在google.com中搜索显示用户更感兴趣的是包括台湾网页的所有internet上的网页。

发表评论



Copyright © 2007 Google Inc. All rights reserved.
隐私政策 - 服务条款