如何阻止 AI 爬取网站？

爬虫或者叫蜘蛛、Bot 有时会给网站带来很大的访问压力。

比如搜索引擎和 SEO 工具的爬虫，还有 Twitter 和 Tik Tok 的爬虫、Cookiebot 等。

随着 AI 的兴起，来自 AI 的爬虫访问越发多了，本来考虑到 AI 也能给站点带来些展示的机会，想加些配置应对，但 OpenAI 的爬虫访问频率高达 30 次每秒，很多站点虽然页面数多，但只是个小站，不是大型新闻站点，承受不起这么频繁的爬取。

另外一些产品页面也没什么值得爬取和展示的内容，就不双向浪费能源了，直接屏蔽吧。

通常我们只需表明不愿被爬取的态度，用 robots.txt 告知爬虫即可。

禁止 OpenAI 爬取

# Block OpenAI User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: /

# Block Google Gemini User-agent: Google-Extended Disallow: /

# Block Anthropic Claude User-agent: ClaudeBot Disallow: /

对于支持 Crawl-delay 的爬虫，也可以减缓爬取频率，比如
User-agent: ClaudeBot Crawl-delay: 1

# Block Perplexity User-Agent: PerplexityBot Disallow: /

对于遵循 CCBot 规则的爬虫，可以用一条统一屏蔽

User-agent: CCBot Disallow: /

另外对于 WordPress 网站，这些 AI 往往通过 /wp-json/wp/v2/posts/50046 这样的 API 来爬取，可以在 robots.txt 中予以屏蔽
User-agent: * Disallow: /wp-json/

更多写法参考知名网站列表:

https://www.businessinsider.com/openai-gptbot-ccbot-more-companies-block-ai-web-crawlers-2023-9