如何禁止常见 AI 引擎抓取网页内容-成品源码-好优选

今年各大厂商纷纷推出或升级了 AI 大模型，较出名的是OpenAI GPT 与谷歌的 Bard、Vertex AI等，它们会在互联网上抓取大量的数据来训练自己，如果不希望内容被抓取可按本文指引禁止。

为什么需要禁止 AI 引擎抓取网页内容？

在人工智能的训练中，数据扮演着至关重要的角色。就像一个渴望知识的学子，人工智能需要大量数据来滋润它的“头脑”，使其不断进化、成长。

数据的数量和质量直接影响了AI模型的性能。通过不断地挖掘和分析这些数据，AI模型能够逐渐适应各种任务，变得越来越聪明。而这种挖掘过程，也需要大量的时间和计算资源。

总的来说，人工智能的训练离不开大量数据的支持，就如同树木需要阳光和水份才能茁壮成长。

虽然 AI 大模型需要咱们的网页内容，但作为站长而言，网站内容被抓取是没有益处的。这些 AI 引擎抓取内容也不会对 SEO 产生正面影响，反之还会产生额外的流量，消耗更多的服务器资源。

通过 robots.txt 禁止 AI 引擎抓取

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

目前笔者暂未发现其它 AI 引擎使用的 User-agent 名称，例如百度的文心一言并未公布它采取何种抓取方式与 User-agent 名称。

以上内容添加至 robots.txt 文件顶部即可生效，但正如我们在介绍 robots.txt 的文章中提到的，有些网络爬虫是不一定会遵守这个限制的。

使用 Nginx 规则完全禁止部分爬虫访问网页

既然有些爬虫不守规则，无视 robots.txt 中的指令，那么下面的方法是绝对可阻止它们访问的。

在 Nginx 主机配置文件中加入：

if ( $http_user_agent ~* “GPTBot|Google-Extended|CCBot” ) {
return 403;
}

释义：

以上代码将客户端请求中包含 GPTBot、Google-Extended 或 CCBot 的访问直接返回 403 状态码（禁止访问）。

对于

如何禁止常见 AI 引擎抓取网页内容