ChatGPTなど生成AIのクローラーをブロックする
トップページへ
不定期で更新する予定です。
ブロックすることでご自身のサイトの記事を AI に収集されることは防げますが、なんらかのデメリットが発生するかもしれませんので、あくまもで自己責任でお願いします。
考えられるデメリット
・とくに検索エンジン系のクローラーの場合、サイトの検索順位に影響が出る可能性が考えられます。後述のCCBotもその可能性はゼロではありません。
2025/1/28
DeepSeek(楽天市場で探す ・ amazonで探す)(中国製AI)
Copilotによればユーザーエージェントは「DeepSeek V3」との回答でしたが、当サイトへのアクセスは未確認(*)なので、それが正しいかは判断できません。
*基本的に中国からアクセスはブロックしているので未確認が継続されると思います。
ChatGPT系
GPTBot
https://platform.openai.com/docs/gptbot
一部引用
GPTBot は、生成 AI 基盤モデルをより便利で安全なものにするために使用されます。生成 AI 基盤モデルのトレーニングに使用される可能性のあるコンテンツをクロールするために使用されます。GPTBot を禁止すると、サイトのコンテンツは生成 AI 基盤モデルのトレーニングに使用されないことを示します
robots.txtに
User-agent: GPTBot
User-agent: OAI-Searchbot
User-agent: ChatGPT-User
Disallow: /
を書いていますが、それだけでは不安なので
前述の公式サイトの情報から、OAI-SearchBot、ChatGPT-User、GPTBotの「Published IP addresses」をクリックして表示されるIPアドレスを .htaccess でブロックしています。
2025-4-30 ChatGPTのクローラーのJSONをまとめたものです
Deny from 20.42.10.176/28
Deny from 172.203.190.128/28
Deny from 104.210.140.128/28
Deny from 51.8.102.0/24
Deny from 135.234.64.0/24
Deny from 52.230.152.0/24
Deny from 20.171.206.0/24
Deny from 20.171.207.0/24
Deny from 4.227.36.0/25
Deny from 20.125.66.80/28
Deny from 172.182.204.0/24
Deny from 23.98.179.16/28
Deny from 172.183.222.128/28
Deny from 40.116.73.208/28
Deny from 52.190.190.16/28
Deny from 51.8.155.64/28
Deny from 51.8.155.48/28
Deny from 135.237.131.208/28
Deny from 51.8.155.112/28
Deny from 52.159.249.96/28
Deny from 52.255.111.112/28
Deny from 172.178.141.112/28
Deny from 172.178.140.144/28
Deny from 172.178.141.128/28
Deny from 4.196.118.112/28
Deny from 20.215.188.192/28
Deny from 4.197.22.112/28
Deny from 172.213.21.16/28
Deny from 172.213.12.112/28
Deny from 57.154.175.0/28
Deny from 52.236.94.144/28
Deny from 23.98.186.192/28
Deny from 23.98.186.176/28
Deny from 68.221.67.192/28
Deny from 13.83.167.128/28
Deny from 52.159.227.32/28
Deny from 68.221.67.224/28
Deny from 20.97.189.96/28
Deny from 52.230.163.32/28
Deny from 52.255.111.80/28
Deny from 4.151.241.240/28
Deny from 52.255.111.48/28
Deny from 52.230.164.176/28
Deny from 20.161.75.208/28
Deny from 52.225.75.208/28
Deny from 52.156.77.144/28
Deny from 40.84.221.208/28
Deny from 40.84.221.224/28
2025-4-9 追記
ChatGPTのクローラーが使用しているIPアドレスの範囲が更新されていたので、私のわかる範囲で「追加された範囲」を掲載します。なお「削除された範囲」は不明です。
137.116.165.208/28
172.182.204.0/24
172.213.12.112/28
172.213.21.16/28
4.151.241.240/28
40.116.73.208/28
52.159.227.32/28
52.190.190.16/28
52.230.163.32/28
52.230.164.176/28
52.255.111.112/28
52.255.111.48/28
52.255.111.80/28
68.221.67.192/28
68.221.67.224/28
2025-3-12 追記
ChatGPTのクローラーが使用しているIPアドレスの範囲が更新されていたので、私のわかる範囲で「追加された範囲」を掲載します。なお「削除された範囲」は不明です。
“ipv4Prefix”: “20.125.66.80/28”
“ipv4Prefix”: “135.234.64.0/24”
“ipv4Prefix”: “172.178.141.112/28”
“ipv4Prefix”: “57.154.175.0/28”
“ipv4Prefix”: “23.98.186.192/28”
“ipv4Prefix”: “23.98.186.176/28”
“ipv4Prefix”: “13.83.167.128/28”
“ipv4Prefix”: “172.182.193.160/28”
2025-2-4 追記
20.171.207.78 – – [04/Feb/2025:12:59:36 +0900] “GET / HTTP/2.0” 200 3098 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”
20.171.207.31 – – [04/Feb/2025:12:57:04 +0900] “GET /xxxxxxd-coronavirus-similar/ HTTP/2.0” 200 4626 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”
20.171.207.136 – – [04/Feb/2025:12:57:04 +0900] “GET /wp-content/uploads/2020/04/xxxxx.webp HTTP/2.0” 200 8548 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”
一度クローラー名でブロックしていたものの、再び200クロールされたので、とりあえずIPアドレスでブロックしました。
Anthropic(アンソロピック)
Q.Anthropicはウェブからデータをクロールしていますか?また、サイト所有者はどのようにしてクローラーをブロックできますか?
A.robots.txtに
User-agent: ClaudeBot
Disallow: /
個人的に同じアンソロピック社の
User-agent: anthropic-ai
User-agent: Claude-Web
も追加しブロックしています。
Spawning-AI
公式サイト
で「ブロックするファイル種別、許可するファイル種別」を選ぶと ai.txt が生成されるのでそれをダウンロードしてルートに設置します。
CCBot
robots.txtに
User-agent: CCBot
Disallow: /
補足:AIではないですがオープンデータなので、AIに流用される可能性があると私は判断しています。
Copilot
記載はありませんが、
robots.txtに
User-agent: Copilot
Disallow: /
PetalBot
ファーウェイの検索エンジン用であり、同社のアシスタントおよびAI検索サービス用とのこと
User-agent: PetalBot
Disallow: /
Applebot
引用
Applebot によってクロールされたデータは、Spotlight、Siri、Safari といった Apple のエコシステムの多くのユーザ体験に組み込まれた検索テクノロジーをはじめとするさまざまな機能を強化するために使用されます
e.g.以下の例では、Applebot は「/private/」や「/not-allowed/」の下位にある書類はクローリングしません。
User-agent: Applebot
Allow: /
Disallow: /private/
User-agent: *
Disallow: /not-allowed/
Applebot-Extended を許可すると、Apple の生成 AI モデルの機能と品質が、時間の経過とともに向上します。
e.g.次のように、robots.txt にルールを追加して、Applebot-Extended を許可しないように設定することができます。
User-agent: Applebot-Extended
Disallow: /private/
詳細不明系
The Knowledge AI(ナレッジAI)
詳細は不明。
とりあえず robots.txtに
User-agent: The Knowledge AI
Disallow: /
この企業のもの?
https://docs.cognigy.com/ai/empower/knowledge-ai/overview/#create-a-knowledge-store
もしくはオープンソースではないか?という推定のみ。
cohere-ai
この企業ではないか?
という推定のみ
とりあえず robots.txtに
User-agent: cohere-ai
Disallow: /