什么是网站robots文件?它的作用是什么

Robots.txt是网站管理员创建的文本文件，用于指示网络机器人(通常是搜索引擎机器人)如何抓取其网站上的网页。robots.txt文件是机器人排除协议(REP)的一部分，该协议是一组Web标准，用于管理机器人如何抓取网络，访问和索引内容，以及将内容提供给用户。

REP还包括元机器人等指令，以及关于搜索引擎应如何处理链接(例如“跟随”或“nofollow”)的页面，子目录或站点范围的说明。

实际上，robots.txt文件指示某些用户代理(网络爬行软件)是否可以抓取网站的某些部分。这些爬行指令通过“禁止”或“允许”某些(或所有)用户代理的行为来指定。

基本格式：

用户代理：[用户代理名称]

禁止：[不要抓取URL字符串]

这两行被认为是一个完整的robots.txt文件 - 尽管一个机器人文件可以包含多行用户代理和指令(即，禁止，允许，爬行延迟等)。

在具有多个用户代理指令的robots.txt文件中，每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户。如果文件包含适用于多个用户代理的规则，则爬网程序将仅关注(并遵循指令)最具体的指令组。

示例robots.txt：

以下是www.example.com网站上robots.txt的几个示例：

Robots.txt文件网址：www.example.com/robots.txt

阻止所有内容的所有网络抓取工具

用户代理： *

不允许： /

在robots.txt文件中使用此语法会告诉所有网络抓取工具不要抓取www.example.com上的任何网页，包括主页。

允许所有网络抓取工具访问所有内容

用户代理： *

不允许：

在robots.txt文件中使用此语法可告知网络抓取工具抓取www.example.com上的所有网页，包括主页。

阻止特定文件夹中的特定Web爬网程序

用户代理：Googlebot

禁止：/ example-subfolder /

此语法仅告知Google的抓取工具(用户代理名称Googlebot)不要抓取包含URL字符串www.example.com/example-subfolder/的任何网页。

阻止特定网页中的特定网络抓取工具

用户代理：Bingbot

禁止：/example-subfolder/blocked-page.html

此语法仅告知Bing的抓取工具(用户代理名称Bing)，以避免在www.example.com/example-subfolder/blocked-page抓取特定页面。

robots.txt如何运作?

搜索引擎有两个主要工作：

抓取网络以发现内容;

索引该内容，以便可以向正在寻找信息的搜索者提供。

为了抓取网站，搜索引擎会关注从一个网站到另一个网站的链接 - 最终会抓取数十亿个链接和网站。这种爬行行为有时被称为“蜘蛛”。

到达网站后但在搜索网站之前，搜索爬虫会查找robots.txt文件。如果找到一个，则爬网程序将在继续浏览页面之前首先读取该文件。由于robots.txt文件包含有关搜索引擎应如何抓取的信息，因此在此处找到的信息将指示此特定网站上的进一步抓取操作。如果robots.txt文件并没有包含禁止用户代理的活动的任何指示(或如果网站没有robots.txt文件)，它会继续抓取网站上的其他信息。

为什么需要robots.txt?

Robots.txt文件控制抓取工具访问您网站的某些区域。虽然如果您不小心禁止Googlebot抓取您的整个网站(!!)，这可能会非常危险，但在某些情况下robots.txt文件可能会非常方便。

一些常见用例包括：

防止重复内容出现在SERP中(请注意，元机器人通常是更好的选择)

将网站的整个部分保密(例如，您的工程团队的临时站点)

保持内部搜索结果页面不会出现在公共SERP上

指定站点地图的位置

防止搜索引擎索引您网站上的某些文件(图像，PDF等)

指定爬网延迟，以便在爬网程序一次加载多个内容时防止服务器过载

如果您的站点上没有要控制用户代理访问的区域，则可能根本不需要robots.txt文件。

SEO爱站网

什么是网站robots文件?它的作用是什么

热门资讯

最新资讯

在线客服