SEO爱站网 logo SEO爱站网

独立博客:robots.txt文件Disallow与Allow行的顺序是有意义的

高阶白帽 1013 0 2019-11-25 21:50:31

在对 robots.txt 文件设置记录时,要特别注意 Disallow 与 Allow 行的顺序是有意义的,spider 会根据第一个匹配成功的 Allow 或 Disallow 行确定是否访问某个URL。

举例说明:

允许 spider 访问 /cgi-bin/ 目录下的包含 see 的文件夹或URL

User-agent: *

Allow: /cgi-bin/see

Disallow: /cgi-bin/

如果Allow 和 Disallow 的顺序调换一下:

User-agent: *

Disallow: /cgi-bin/

Allow: /cgi-bin/see

spider 就无法访问到 /cgi-bin/ 目录下的包含 see 的文件夹或URL,因为第一个 Disallow: /cgi-bin/ 已经匹配成功。

关于 Disallow 和 Allow 记录写法

Disallow 和 Allow 记录后面可以是一条完整的路径,也可以是路径的非空前缀。例如 “Disallow: /help” 禁止 spider 访问/help.html、/helpabc.html、/help/index.html;而 “Disallow:/help/” 则允许 spider 访问 /help.html、/helpabc.html,不能访问 /help/index.html。

文章来源:Bruce 只言片语

转载请注明:SEO爱站网 » 独立博客:robots.txt文件Disallow与Allow行的顺序是有意义的

网友跟帖
展开