如何阻止 AI 爬取网站?

爬虫或者叫 蜘蛛、Bot 有时会给网站带来很大的访问压力。

比如搜索引擎和 SEO 工具的爬虫,还有 Twitter 和 Tik Tok 的爬虫、Cookiebot 等。

随着 AI 的兴起,来自 AI 的爬虫访问越发多了,本来考虑到 AI 也能给站点带来些展示的机会,想加些配置应对,但 OpenAI 的爬虫访问频率高达 30 次每秒,很多站点虽然页面数多,但只是个小站,不是大型新闻站点,承受不起这么频繁的爬取。

另外一些产品页面也没什么值得爬取和展示的内容,就不双向浪费能源了,直接屏蔽吧。

通常我们只需表明不愿被爬取的态度,用 robots.txt 告知爬虫即可。

禁止 OpenAI 爬取

# Block OpenAI
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /

禁止 Google Gemini (Bard), Vertex AI 爬取

# Block Google Gemini
User-agent: Google-Extended
Disallow: /

禁止 Anthropic Claude 爬取

# Block Anthropic Claude
User-agent: ClaudeBot
Disallow: /

对于支持 Crawl-delay 的爬虫,也可以减缓爬取频率,比如
User-agent: ClaudeBot
Crawl-delay: 1

禁止 Perplexity AI 爬取

# Block Perplexity
User-Agent: PerplexityBot
Disallow: /

对于遵循 CCBot 规则的爬虫,可以用一条统一屏蔽

User-agent: CCBot
Disallow: /

另外对于 WordPress 网站,这些 AI 往往通过 /wp-json/wp/v2/posts/50046 这样的 API 来爬取,可以在 robots.txt 中予以屏蔽
User-agent: *
Disallow: /wp-json/

更多写法参考知名网站列表:

https://www.businessinsider.com/openai-gptbot-ccbot-more-companies-block-ai-web-crawlers-2023-9

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

或许还会想看: