SEO爱站网 logo SEO爱站网

搜索引擎优化培训:为什么robots.txt禁止抓取却依然被收录

高阶白帽 862 0 2019-12-13 10:30:38

有些人可能疑问,我的站点禁止所有蜘蛛访问抓取网页,为什么在搜索引擎结果中依然可以找到,并且关键词就是站点标题,今天艾瑞就来带大家分析下。

首先,所有的搜索引擎都支持robots.txt,甚至是我们伟大的百度,低估他了。也就是蜘蛛是不会违背抓取原则的,那为什么依然可以在搜索结果中找到禁止抓取的网页呢?

有些时候,我们可能看到禁止抓取的网页在搜索结果中的描述是空的,或者根本就不是网页中实际的描述,而是其他网站对其描述、评价的。其实这就是问题的答案。

因为很多时候禁止搜索引擎抓取的网站都是比较权威的网站,之前在搜索引擎中的权重极其之高,当然禁止蜘蛛抓取后,外部链接依然不受到影响。如此权威的网站不出现在搜索结果中,实为憾事,这些搜索引擎的初衷何以呈现,何以给用户最佳搜索体验。

然而,做事不能没有规则,你不让我抓取,我就不抓取,但我可以收录你,描述可取其他权威站点对其之描述,比如DOMZ、维基百科等。

在Google中的出现的案例目前还是没有找到,不过淘宝禁止百度的那点事,我还是记忆犹新。现在我们以淘宝禁止百度抓取为例来分析问题。

1.首先看看robots.txt内容,不过多说什么。

http://www.taobao.com/robots.txt

http://my.taobao.com/robots.txt

User-agent: Baiduspider

Disallow:/

User-agent: baiduspider

Disallow:/

2.可以看到www.taobao.com收录并且有描述的,但没有快照。

值得注意的是,此描述非www.taobao.com本站之描述,而是其他权威站点对其之描述。

3.大家看到my.taobao.com有收录,但是无描述

从Google搜索 my.taobao.com 获得大约 510,000 条查询结果,并且从搜索结果页面显示有很多url指向my.taobao.com,值得注意的是由于访问my.taobao.com需要登录的权限,所以一般未登录用户值得返回到登陆页面。

无描述的原因是这个二级域名没有其他权威网站对其简要描述。

.

4.如果有Google方面的案例,欢迎提供分析

转载请注明:SEO爱站网 » 搜索引擎优化培训:为什么robots.txt禁止抓取却依然被收录

网友跟帖
展开