试试在百度中搜索”Google Reader“,你会发现一个奇怪的现象
分析一下访问Google Reader会被,重定向Google Account的登录页面,这个页面是经过SSL加密,所以爬虫才会访问不到
update:
看了一下google的robots.txt,发现一个问题
http://www.google.com/robots.txt
有一行
Disallow: /reader/
这表明这个页面是不因该被收录的,但是包括Google本身的搜索引擎都没有遵守这个规则。
这个页面看起来的确是人工加上去的
无法访问呢!