SEO爱站网 logo SEO爱站网

什么是网站robots文件?它的作用是什么

优化入门 891 0 2020-01-19 12:05:19

Robots.txt是网站管理员创建的文本文件,用于指示网络机器人(通常是搜索引擎机器人)如何抓取其网站上的网页。robots.txt文件是机器人排除协议(REP)的一部分,该协议是一组Web标准,用于管理机器人如何抓取网络,访问和索引内容,以及将内容提供给用户。

REP还包括元机器人等指令,以及关于搜索引擎应如何处理链接(例如“跟随”或“nofollow”)的页面,子目录或站点范围的说明。

实际上,robots.txt文件指示某些用户代理(网络爬行软件)是否可以抓取网站的某些部分。这些爬行指令通过“禁止”或“允许”某些(或所有)用户代理的行为来指定。

基本格式:

用户代理:[用户代理名称]

禁止:[不要抓取URL字符串]

这两行被认为是一个完整的robots.txt文件 - 尽管一个机器人文件可以包含多行用户代理和指令(即,禁止,允许,爬行延迟等)。

在具有多个用户代理指令的robots.txt文件中,每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户。如果文件包含适用于多个用户代理的规则,则爬网程序将仅关注(并遵循指令)最具体的指令组。

示例robots.txt:

以下是www.example.com网站上robots.txt的几个示例:

Robots.txt文件网址:www.example.com/robots.txt

阻止所有内容的所有网络抓取工具

用户代理: *

不允许: /

在robots.txt文件中使用此语法会告诉所有网络抓取工具不要抓取www.example.com上的任何网页,包括主页。

允许所有网络抓取工具访问所有内容

用户代理: *

不允许:

在robots.txt文件中使用此语法可告知网络抓取工具抓取www.example.com上的所有网页 ,包括主页。

阻止特定文件夹中的特定Web爬网程序

用户代理:Googlebot

禁止:/ example-subfolder /

此语法仅告知Google的抓取工具(用户代理名称Googlebot)不要抓取包含URL字符串www.example.com/example-subfolder/的任何网页。

阻止特定网页中的特定网络抓取工具

用户代理:Bingbot

禁止:/example-subfolder/blocked-page.html

此语法仅告知Bing的抓取工具(用户代理名称Bing),以避免在www.example.com/example-subfolder/blocked-page抓取特定页面。

robots.txt如何运作?

搜索引擎有两个主要工作:

抓取网络以发现内容;

索引该内容,以便可以向正在寻找信息的搜索者提供。

为了抓取网站,搜索引擎会关注从一个网站到另一个网站的链接 - 最终会抓取数十亿个链接和网站。这种爬行行为有时被称为“蜘蛛”。

到达网站后但在搜索网站之前,搜索爬虫会查找robots.txt文件。如果找到一个,则爬网程序将在继续浏览页面之前首先读取该文件。由于robots.txt文件包含有关搜索引擎应如何抓取的信息,因此在此处找到的信息将指示此特定网站上的进一步抓取操作。如果robots.txt文件并没有包含禁止用户代理的活动的任何指示(或如果网站没有robots.txt文件),它会继续抓取网站上的其他信息。

为什么需要robots.txt?

Robots.txt文件控制抓取工具访问您网站的某些区域。虽然如果您不小心禁止Googlebot抓取您的整个网站(!!),这可能会非常危险,但在某些情况下robots.txt文件可能会非常方便。

一些常见用例包括:

防止重复内容出现在SERP中(请注意,元机器人通常是更好的选择)

将网站的整个部分保密(例如,您的工程团队的临时站点)

保持内部搜索结果页面不会出现在公共SERP上

指定站点地图的位置

防止搜索引擎索引您网站上的某些文件(图像,PDF等)

指定爬网延迟,以便在爬网程序一次加载多个内容时防止服务器过载

如果您的站点上没有要控制用户代理访问的区域,则可能根本不需要robots.txt文件。

网友跟帖
展开