百度的搜索结果是通过人工编辑的?

试试在百度中搜索”Google Reader“,你会发现一个奇怪的现象

via 在百度中搜索”Google Reader”

分析一下访问Google Reader会被,重定向Google Account的登录页面,这个页面是经过SSL加密,所以爬虫才会访问不到

update:

看了一下google的robots.txt,发现一个问题

http://www.google.com/robots.txt

有一行 

Disallow: /reader/

这表明这个页面是不因该被收录的,但是包括Google本身的搜索引擎都没有遵守这个规则。

这个页面看起来的确是人工加上去的

版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明

在〈百度的搜索结果是通过人工编辑的?〉中有 1 則留言

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *