每月彙整: 2008 年 4 月

Windows XP SP3 发布时间确定,本月将全面提供下载

微软已经正式公布 Windows XP Service Pack 3 的最终发布日期,在前几个 RC 版本中,大部分参与测试的用户已经发现,SP3 较之 SP2 和 SP1 有着一些本质的变化,并且在各方面的性能都有所提高。也令那些不愿意接受 Vista 的 Windows 用户们,着实等待了很久。此次公布的发布日程基本上都在本月完成,昨天开始,微软针对 SP3 的服务支持已经开始,21 日,OEM、Volume License、Connect、MSDN 和 TechNet 订户均可先收到,29 日 Microsoft Update、Windows Update 和下载中心都将会提供 SP3 的下载:– April 14, 2008: Support is available for the release version of Service Pack 3 for Windows XP
– April 21, 2008: Original Equipment Manufacturers, Volume License, Connect, and MSDN and TechNet subscribers
– April 29, 2008: Microsoft Update, Windows Update, Download Center
– June 10, 2008: Automatic Updates

此外,根据微软公布的发布计划,在 6 月 10 开始,将会自动更新 SP3。

用搜索引擎机器人的语言交流

发表者:Sean Harding,网站管理员工具小组原文:Speaking the language of robots
发表于:2008年3月27日星期四,下午1:27我们都知道

谷歌机器人是非常友好的。就像所有的友好的搜索引擎机器人一样,他耐心地听取我们的意见并且尊重我们的意愿不去爬行任何我们不希望它爬行的网站部分。我们可以仅仅给他一个robots.txt文件说明什么是我们希望他做的,然后他就会愉快地遵从。但是如果我们迫不得已只能与谷歌机器人直接交流呢?毕竟,不是所有的人都熟悉robots.txt文件的语言。这就是我们为什么如此高兴地向您介绍一款专属于您的搜索引擎机器人翻译工具:网站管理员工具中的robots.txt生成器。它旨在为您提供一个既简单又互动的方式去建立一个robots.txt文件。它的操作非常简单,您只需输入您不希望搜索引擎机器人爬行的文件和目录即可。或者,如果您需要的话,您可以为特定的搜索引擎机器人或您网站的特定区域建立更加细致的规则。


当您完成了对生成器的配置之后,您可以利用我们的 robots.txt分析工具检测新生成的robots.txt文件的效果。如果测试无误,您只需将生成的文件保存在您网站的根目录下即可。除此之外,这里还有一些关于robots.txt文件的重要事实希望您能牢记:

  • 不是所有的搜索引擎都支持robots.txt文件的所有扩展Robots.txt生成器可以生成谷歌机器人能够理解和识别的文件,而且绝大多数搜索引擎机器人也都能够正确识别。但是,一些例外情况也是存在的,或许有一些搜索引擎机器人不能完全识别生成器生成的所有特性。
  • Robots.txt文件仅仅是一个请求尽管在主要搜索引擎上极为少见,搜索引擎中还是有一些肆无忌惮的搜索引擎机器人会无视robots.txt的内容,对禁止访问的网站区域也进行爬行。如果您有一些需要进行彻底保护的敏感信息,您应该设置访问密码来对它们加以保护,而不是仅仅依赖于robots.txt文件。

我们希望这个新工具能够帮助您将自己的意愿与谷歌机器人和其他访问您网站的搜索引擎机器人进行更顺畅的沟通。如果您想了解更多关于robots.txt文件的情况,请访问我们的帮助中心。如果您想就robots.txt和搜索引擎机器人的有关问题与其他网站管理员进行交流的话,请访问我们的谷歌网站管理员支持论坛

转载自谷歌中文网站管理员博客

与谷歌机器人的第一次约会:标头和压缩

发表者:Maile Ohye (饰网站),Jeremy Lilley (饰谷歌机器人)

原文: First date with the Googlebot: Headers and compression
发表于: 2008年3月5日星期三,晚上6:13

googlebot with flowers
姓名/用户代理: 谷歌机器人
IP地址: 点击这里查看如何验证
寻觅: 拥有独特而诱人内容的网站
最不喜欢的行为:违反《网站管理员指南》

谷歌机器人 — 多么神奇的梦幻之舟!他了解我们的灵魂和各个组成部分。或许他并不寻求什么独一无二的东西;他阅览过其它数十亿个网站(虽然我们也与其他搜索引擎机器人分享自己的数据:)),但是就在今晚,作为网站和谷歌机器人,我们将真正地了解对方。

我知道第一次约会的时候,过分地分析从来就不是什么好主意。我们将通过一系列的文章,一点点地了解谷歌机器人:

  1. 我们的第一次约会(就在今晚):谷歌机器人发出的数据标头和他所留意到的文件格式是否适于被进行压缩处理;
  2. 判断他的反应:响应代码(301s、302s),他如何处理重定向和If-Modified-Since;
  3. 下一步:随着链接,让他爬行得更快或者更慢(这样他就不会兴奋地过了头)。

今晚只是我们的第一次约会……

***************
谷歌机器人: 命令正确应答
网站: 谷歌机器人,你来了!
谷歌机器人:是的,我来了!


GET / HTTP/1.1
Host: example.com
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Accept-Encoding: gzip,deflate

网站: 这些标头太炫了!无论我的网站在美国、亚洲还是欧洲,你都用同样的标头爬行吗?你曾经用过其他标头吗?

谷歌机器人: 一般而言,我在全球各地所用的标头都保持一致。我试图从一个网站默认的语言和设定出发,搞清楚一个网页究竟长得什么样。有时候人们的用户代理各不相同,例如Adsense读取使用的是“Mediapartners-Google”:
User-Agent: Mediapartners-Google

或者对于图像搜索:
User-Agent: Googlebot-Image/1.0

无线读取的用户代理因运营商而异,而谷歌阅读器RSS读取则包含了订阅者数量等额外信息。

我通常会避免Cookies(因此不存在所谓“Cookie:”标头),因为我并不希望与具体对话有关的信息对内容产生太大的影响。此外,如果某个服务器在动态URL而不是Cookies上使用对话ID,通常我都能识别出来,这样就不用因为每次对话ID的不同而成千上万遍地重复爬行同一个网页。
网站:我的结构非常复杂。我是用许多类型的文件。你的标头说:“Accept:*/*”。你会对所有的URL进行收录,还是自动过滤某些文件扩展名?

谷歌机器人:这要取决于我想找什么。

如果我只是对常规的Web搜索进行检索,当我看到指向MP3和视频内容的链接,我可能不会下载这些东西。类似地,如果我看到了一个JPG文件,处理方法自然 就与HTML或者PDF链接有所区别。例如JPG 的变动频率往往比HTML低很多,所以我不太经常检查JPG的变动,以节约带宽。同时,如果我为谷歌学术搜索寻找链接,那么我对PDF文章的兴趣就会远远高于对JPG文件的兴趣。对于学者而言,下载涂鸦绘画(例如JPG),或者是关于小狗玩滑板的视频,是容易让他们分散注意力的,你说对吗?

网站:没错,他们可能会觉得被打扰到了。你的敬业精神令我佩服得五体投地。我自己就喜欢涂鸦绘画(JPG),很难抗拒它们的诱惑力。

谷歌机器人:我也一样。实际上我并不是一直都在做学问。如果我为搜索图像而爬行,就会对JPG非常感兴趣,碰到新闻,我会花大力气考察HTML和它们附近的图像。

还有很多扩展名,例如exe、dll、zip、dmg等,它们对于搜索引擎而言,既数量庞大,又没有多大用处。
网站:如果你看到我的URL“http://www.example.com/page1.LOL111”,(呜噎着说)你会不会只是因为里面包含着未知的文件扩展名就把它拒之门外呢?

谷歌机器人: 网站老兄,让我给你讲点背景知识吧。一个文件真正下载完成后,我会使用“内容—类别”(Content-Type)标头来检查它属于HTML、图像、文本还是别的什么东西。如果它是PDF、Word文档或Excel工作表等特殊的数据类型,我会确认它的格式是否合法有效,并从中抽取文本内容。但是你永远也不能确定里面是否含有病毒。但是如果文档或数据类型混乱不清,我除了把它们扔掉之外,也没有什么更好的办法。

所以,如果我爬行你的“http://www.example.com/page1.LOL111”URL并发现未知文件扩展名时,我可能会首先把它下载。 如果我从标头中无法弄清内容类型,或者它属于我们拒绝检索的文件格式(例如MP3),那么只能把它放在一边了。除此之外,我们会接着对文件进行爬行。

网站:谷歌机器人,我很抱歉对你的工作风格“鸡蛋里挑骨头”,但我注意到你的“Accept-Encoding”标头这样说:
Accept-Encoding: gzip,deflate

你能跟我说说这些标头是怎么回事吗?

谷歌机器人:当然。所有的主流搜索引擎和WEB浏览器都支持对内容进行gzip压缩,以节约带宽。你或许还会碰到其它的一些类型,例如“x-gzip”(与“gzip”相同),“deflate”(我们也支持它)和“identity”(不支持)。

网站:你能更详细地说说文件压缩和“Accept-Encoding: gzip,deflate”吗?我的许多URL都包含尺寸很大的Flash文件和美妙的图像,不仅仅是HTML。如果我把一个比较大的文件加以压缩,会不会有助于你更迅速地爬行呢?

谷歌机器人:对于这个问题,并没有一个简单的答案。首先,swf(Flash)、jpg、png、gif和pdf等文件格式本身已经是压缩过的了(而且还有专门的Flash 优化器)。

网站:或许我已经把自己的Flash文件进行了压缩,自己还不知道。很显然,我的效率很高喽。

谷歌机器人:Apache和IIS都提供了选项,允许进行gzip和deflate压缩,当然,节省带宽的代价是对CPU资源的更多消耗。一般情况下,这项功能只适用于比较容易压缩的文件,例如文本HTML/CSS/PHP内容等。而且,只有在用户的浏览器或者我(搜索引擎机器人)允许的情况下才可以使用。 就我个人而言,更倾向于“gzip”而不是“deflate”。Gzip的编码过程相对可靠一些,因为它不断地进行加和检查,并且保持完整的标头,不像 “deflate”那样需要我在工作中不断推测。除此之外,这两种程序的压缩算法语言都很相似。

如果你的服务器上有闲置的CPU资源,可以尝试进行压缩(链接:Apache, IIS)。但是,如果你提供的是动态内容,而且服务器的CPU已经处于满负荷状态,我建议你还是不要这样做。
网站:很长见识。我很高兴今晚你能来看我。感谢老天爷,我的robots.txt文件允许你能来。这个文件有时候就像对自己的子女过分保护的父母。

谷歌机器人:说到这里,该见见父母大人了——它就是robots.txt。我曾经见过不少发疯的“父母”。其中有些实际上只是HTML错误信息网页,而不是有效的robots.txt。有些文件里充满了无穷无尽的重定向,而且可能指向完全不相关的站点。另外一些体积庞大,含有成千上万条单独成行、各不相同的 URL。下面就是其中的一种有副作用的文件模式,在通常情况下,这个站点是希望我去爬行它的内容的:
User-Agent: *
Allow: /

然而,在某个用户流量的高峰时段,这个站点转而将它的robots.txt切换到限制性极强的机制上:
# Can you go away for a while? I’ll let you back
# again in the future. Really, I promise!
User-Agent: *
Disallow: /

上述robots.txt文件切换的问题在于,一旦我看到这种限制性很强的robots.txt,有可能使我不得不把索引中已经爬行的该网站内容舍弃掉。当我再次被批准进入这个站点的时候,我不得不将原先的许多内容重新爬行一遍,至少会暂时出现503错误相应代码。

一 般来说,我每天只能重新检查一次robots.txt(否则,在许多虚拟主机站点上,我会将一大部分时间花在读取robots.txt文件上,要知道没有 多少约会对象喜欢如此频繁地拜见对方父母的)。站长们通过robots.txt 切换的方式来控制爬行频率是有副作用的,更好的办法是用网站管理员工具将爬行频率调至“较低”即可。
谷歌机器人: 网站老兄,谢谢你提出的这些问题,你一直做得很不错,但我现在不得不说“再见,我的爱人”了。

网站:哦,谷歌机器人…(结束应答):)

***************

极酷的Google韩国分站首页

google_korea_hp_1.gif

 不少朋友可能早就已经知道,作为世界上互联网普及率最高的国家之一,韩国的网络极发达,网速也极快。可能正是由于有这些条件,所以韩国的网站很喜欢使用大量的图片设计或直接用Flash制作。我们都知道Google早在2001年就已经开设了韩国分站,即google.co.kr。入乡随俗,Google韩国分站的首页竟然也跟随着韩国的网站设计潮流而做出了改变。

  注:已补充中文版!  进入Google的韩国分站首页,你会发现它的设计与传统的Google首页截然不同,里面不但每个选择都有对应的图标,鼠标经过时还有很漂亮的动画效果:

google_korea_hp_2.gif

 看起来很像之前流行一时的Google X?没错,的确是很像,但这个是Google官方版。

Google News官方披露优化技巧

Google News以机器算法自动聚合新闻内容而著名,尽管它还不完美。但可以肯定的是,无论你的新闻网站是什么类型,一旦被Google News选为新闻源,那么它将会给你的网站带去非常可观的流量及新用户。一个很好的例子是FT.com在将部分内容免费及向Google News开放后,半年内流量增长了75%,注册用户增加了23万。正因为如此,一些与Google News有关的优化技巧就传开了。到底这些所谓的优化技巧当中,有多少是真的有效的呢?

Google News官方今天进行了鉴证。以下优化技巧/事实经Google证实为有效
1.文章发布后再进行更新,更新内容不会出现在Google News上。
这是因为Google News的爬虫只访问每篇文章的链接一次,因此在文章被抓取到Google News后,文章所进行的更新是不会出现在Google News里的。

2.以纯图片或视频为内容的文章不会被Google News抓取。尽管Google News的爬虫可以抓取多媒体内容,但前提是多媒体内容比如图片和视频得要有相关的文字描述,否则爬虫就会略过它们。原则上,文章的文字内容更多,被抓取的机会越大。
3.网站架构/布局的彻底改变将影响Google News抓取。当网站的架构/布局有了极大的更变后,Google News爬虫就可能无法浏览你的网站,又或者需要更长时间才能浏览你的网站,找到新闻内容。如果你的网站不得不进行这种程度的改版,请参考这里与Google News联系。
1.在文章附近加上图片能改善排名。

这样做的确可以增加图片在Google News上显示的机会,但它对文章本身在Google News上的排名完全无影响。

2.文章发布的时间会影响文章的排名。

Google News爬虫是持续寻找新内容的,因此无论你何时发表文章,发表时间都不会影响文章在Google News上的排名。比如在相同的新闻主题报道上,不管你的文章是在同类文章发布之前、之后或之中被发表,都不会影响你的文章在Google News上的排名。此外,如果一个新闻源总是将别人的原创文章进行”加工”以试图获得更好的Google News排名,那Google News就会对该新闻源进行惩罚。

3.你无法知道文章为什么不被Google News抓取。

事实上,你可以通过Google网站管理员中心再监测你的文章所发生的错误。

4.发布sitemap可以改善文章排名。

尽管给新闻文章创建sitemap有助于Google News爬虫更轻易找到内容,但这种行为本身却不会影响文章的排名。

5.给网站加上Google AdSense广告可以改善文章排名。

这是一个最常见的误传。事实上,给网站加上AdSense广告并不会对文章的抓取或排名造成任何影响。