GPTBot 如何工作？

hasibaakterss3309 · Post by **hasibaakterss3309** » Wed Feb 19, 2025 9:19 am

该系统在网络上搜索可以提高人工智能技术的准确性、能力和安全性的信息，即训练其人工智能。用户代理令牌（用于检测此机器人的方式）被称为“GPTBot”。

通过启用 GPTBot 识别，OpenAI 赋予任何站点的管理员权力来决定是否允许 Bot 访问他们的站点。

OpenAI 解释的一件有趣的事情是，其网络爬虫将负科威特移动数据库责收集全球网络上可用的公共数据。但是，此过程包括一个过滤器，以排除需要付费访问其内容的来源以及收集个人信息的来源。通过这种方式，我们力求保证跟踪过程中收集的信息的质量和合法性。

有关此内容的更多详细信息可以在OpenAI 平台上找到，那里可以找到相关文档。

让我们一起工作吧。

联系我们

CONTACTANOS
如何通过 robots.txt 文件禁用 GPTBot
为了阻止 OpenAI 的 GPTBot 访问网站，可以使用以下命令通过 robots.txt 文件进行阻止：

用户代理：GPTBot

不允许：/

此外，可以授予对网站某些区域的部分访问权限，因此可以使用以下命令进行配置：

用户代理：GPTBot

允许：/directory-1/

禁止：/directory-2/

值得澄清的是，目前尚不清楚拒绝访问 OpenAI 的数据收集机器人对于网站的搜索词、定位和权威性来说是积极的还是适得其反的。

OpenAI 的 GPTBot 是否应该被屏蔽？
近来，OpenAI 实施的数据收集策略引发了担忧和不信任。这些策略可能对使用受版权保护的内容产生法律和道德影响，甚至被许多人认为与网络抓取 (Web Scraping)非常相似，除非收集个人或私人数据，否则这并不是一种非法行为。

目前，尚不清楚通过 robots.txt 阻止 GPTBot 有多大用处。原则上，这可以被视为一个信任点，OpenAI 允许其机器人可见，因此可以被察觉而不会被阻止。

我相信阻止爬虫可能会对未来索引和出现在 AI 生成的搜索结果中产生影响。