爬虫或者叫 蜘蛛、Bot 有时会给网站带来很大的访问压力。
比如搜索引擎和 SEO 工具的爬虫,还有 Twitter 和 Tik Tok 的爬虫、Cookiebot 等。
随着 AI 的兴起,来自 AI 的爬虫访问越发多了,本来考虑到 AI 也能给站点带来些展示的机会,想加些配置应对,但 OpenAI 的爬虫访问频率高达 30 次每秒,很多站点虽然页面数多,但只是个小站,不是大型新闻站点,承受不起这么频繁的爬取。
另外一些产品页面也没什么值得爬取和展示的内容,就不双向浪费能源了,直接屏蔽吧。
通常我们只需表明不愿被爬取的态度,用 robots.txt 告知爬虫即可。
禁止 OpenAI 爬取
# Block OpenAI
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
禁止 Google Gemini (Bard), Vertex AI 爬取
# Block Google Gemini
User-agent: Google-Extended
Disallow: /
禁止 Anthropic Claude 爬取
# Block Anthropic Claude
User-agent: ClaudeBot
Disallow: /
对于支持 Crawl-delay 的爬虫,也可以减缓爬取频率,比如
User-agent: ClaudeBot
Crawl-delay: 1
禁止 Perplexity AI 爬取
# Block Perplexity
User-Agent: PerplexityBot
Disallow: /
对于遵循 CCBot 规则的爬虫,可以用一条统一屏蔽
User-agent: CCBot
Disallow: /
另外对于 WordPress 网站,这些 AI 往往通过 /wp-json/wp/v2/posts/50046 这样的 API 来爬取,可以在 robots.txt 中予以屏蔽
User-agent: *
Disallow: /wp-json/
更多写法参考知名网站列表:
https://www.businessinsider.com/openai-gptbot-ccbot-more-companies-block-ai-web-crawlers-2023-9