阻止所有网络爬虫访问所有内容

tannatannatanu · Post by **tannatannatanu** » Sat Dec 21, 2024 9:32 am

robots.txt放在哪里？
为什么 robots.txt 很重要？
阻止非公开页面
最大化抓取预算
防止资源索引
搜索引擎优化最佳实践
Robots.txt 对比元机器人 vs 元机器人X机器人
Robots.txt 如何工作？
robots 文件是机器人排除协议(REP) 的一部分，该协议是一组澳大利亚WS球迷标准，用于管理机器人如何抓取网络、访问和索引内容以及如何向用户呈现该内容。

REP 还包括元机器人等指南，以及关于搜索引擎应如何处理链接（例如“nofollow”或“follow”）的页面、子目录或网站级说明。

示例 Robots.txt：

以下是针对些示例。

该指令告诉所有网络爬虫不要上的任何页面，包括主页。

用户代理：*
禁止：/

允许所有网络爬虫访问所有内容
以下规则告诉网络爬虫上的所有页面，包括主页。

用户代理：* 允许：

阻止特定文件夹中的特定网络爬虫
用户代理：Googlebot
禁止：/example-subfolder/

此语法只是告诉 Google 的抓取工具抓取包含 URL 字符串 www.example.com/example-subfolder/ 的任何页面。