ChatGPTなど生成AIのクローラーをブロックする






トップページへ

不定期で更新する予定です。

ブロックすることでご自身のサイトの記事を AI に収集されることは防げますが、なんらかのデメリットが発生するかもしれませんので、あくまもで自己責任でお願いします。

 

考えられるデメリット

・とくに検索エンジン系のクローラーの場合、サイトの検索順位に影響が出る可能性が考えられます。後述のCCBotもその可能性はゼロではありません。

 

2025/1/28

DeepSeek(楽天市場で探すamazonで探す)(中国製AI)

Copilotによればユーザーエージェントは「DeepSeek V3」との回答でしたが、当サイトへのアクセスは未確認(*)なので、それが正しいかは判断できません。

*基本的に中国からアクセスはブロックしているので未確認が継続されると思います。

 

 

ChatGPT系

GPTBot

https://platform.openai.com/docs/gptbot

一部引用

GPTBot は、生成 AI 基盤モデルをより便利で安全なものにするために使用されます。生成 AI 基盤モデルのトレーニングに使用される可能性のあるコンテンツをクロールするために使用されます。GPTBot を禁止すると、サイトのコンテンツは生成 AI 基盤モデルのトレーニングに使用されないことを示します

robots.txtに

User-agent: GPTBot

User-agent: OAI-Searchbot

User-agent: ChatGPT-User

Disallow: /

を書いていますが、それだけでは不安なので

前述の公式サイトの情報から、OAI-SearchBot、ChatGPT-User、GPTBotの「Published IP addresses」をクリックして表示されるIPアドレスを .htaccess でブロックしています。

 

2025-4-30 ChatGPTのクローラーのJSONをまとめたものです

Deny from 20.42.10.176/28
Deny from 172.203.190.128/28
Deny from 104.210.140.128/28
Deny from 51.8.102.0/24
Deny from 135.234.64.0/24
Deny from 52.230.152.0/24
Deny from 20.171.206.0/24
Deny from 20.171.207.0/24
Deny from 4.227.36.0/25
Deny from 20.125.66.80/28
Deny from 172.182.204.0/24
Deny from 23.98.179.16/28
Deny from 172.183.222.128/28
Deny from 40.116.73.208/28
Deny from 52.190.190.16/28
Deny from 51.8.155.64/28
Deny from 51.8.155.48/28
Deny from 135.237.131.208/28
Deny from 51.8.155.112/28
Deny from 52.159.249.96/28
Deny from 52.255.111.112/28
Deny from 172.178.141.112/28
Deny from 172.178.140.144/28
Deny from 172.178.141.128/28
Deny from 4.196.118.112/28
Deny from 20.215.188.192/28
Deny from 4.197.22.112/28
Deny from 172.213.21.16/28
Deny from 172.213.12.112/28
Deny from 57.154.175.0/28
Deny from 52.236.94.144/28
Deny from 23.98.186.192/28
Deny from 23.98.186.176/28
Deny from 68.221.67.192/28
Deny from 13.83.167.128/28
Deny from 52.159.227.32/28
Deny from 68.221.67.224/28
Deny from 20.97.189.96/28
Deny from 52.230.163.32/28
Deny from 52.255.111.80/28
Deny from 4.151.241.240/28
Deny from 52.255.111.48/28
Deny from 52.230.164.176/28
Deny from 20.161.75.208/28
Deny from 52.225.75.208/28
Deny from 52.156.77.144/28
Deny from 40.84.221.208/28
Deny from 40.84.221.224/28

 

2025-4-9 追記

ChatGPTのクローラーが使用しているIPアドレスの範囲が更新されていたので、私のわかる範囲で「追加された範囲」を掲載します。なお「削除された範囲」は不明です。

137.116.165.208/28
172.182.204.0/24
172.213.12.112/28
172.213.21.16/28
4.151.241.240/28
40.116.73.208/28
52.159.227.32/28
52.190.190.16/28
52.230.163.32/28
52.230.164.176/28
52.255.111.112/28
52.255.111.48/28
52.255.111.80/28
68.221.67.192/28
68.221.67.224/28

 

2025-3-12 追記

 

ChatGPTのクローラーが使用しているIPアドレスの範囲が更新されていたので、私のわかる範囲で「追加された範囲」を掲載します。なお「削除された範囲」は不明です。

“ipv4Prefix”: “20.125.66.80/28”
“ipv4Prefix”: “135.234.64.0/24”
“ipv4Prefix”: “172.178.141.112/28”
“ipv4Prefix”: “57.154.175.0/28”
“ipv4Prefix”: “23.98.186.192/28”
“ipv4Prefix”: “23.98.186.176/28”
“ipv4Prefix”: “13.83.167.128/28”
“ipv4Prefix”: “172.182.193.160/28”

 

2025-2-4 追記

20.171.207.78 – – [04/Feb/2025:12:59:36 +0900] “GET / HTTP/2.0” 200 3098 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”

20.171.207.31 – – [04/Feb/2025:12:57:04 +0900] “GET /xxxxxxd-coronavirus-similar/ HTTP/2.0” 200 4626 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”

20.171.207.136 – – [04/Feb/2025:12:57:04 +0900] “GET /wp-content/uploads/2020/04/xxxxx.webp HTTP/2.0” 200 8548 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”

一度クローラー名でブロックしていたものの、再び200クロールされたので、とりあえずIPアドレスでブロックしました。

 

 

Anthropic(アンソロピック)

Q.Anthropicはウェブからデータをクロールしていますか?また、サイト所有者はどのようにしてクローラーをブロックできますか?

A.robots.txtに

User-agent: ClaudeBot

Disallow: /

個人的に同じアンソロピック社の

User-agent: anthropic-ai

User-agent: Claude-Web

も追加しブロックしています。

 

 

Spawning-AI

公式サイト

https://spawning.ai/ai-txt

で「ブロックするファイル種別、許可するファイル種別」を選ぶと ai.txt が生成されるのでそれをダウンロードしてルートに設置します。

 

 

CCBot

公式サイト

robots.txtに

User-agent: CCBot

Disallow: /

補足:AIではないですがオープンデータなので、AIに流用される可能性があると私は判断しています。

 

Copilot

マイクロソフト社の個人用AIアシスタント

記載はありませんが、

robots.txtに

User-agent: Copilot

Disallow: /

 

PetalBot

ファーウェイの検索エンジン用であり、同社のアシスタントおよびAI検索サービス用とのこと

User-agent: PetalBot
Disallow: /

 

Applebot

アップル社

引用

Applebot によってクロールされたデータは、Spotlight、Siri、Safari といった Apple のエコシステムの多くのユーザ体験に組み込まれた検索テクノロジーをはじめとするさまざまな機能を強化するために使用されます

e.g.以下の例では、Applebot は「/private/」や「/not-allowed/」の下位にある書類はクローリングしません。

User-agent: Applebot

Allow: /

Disallow: /private/

 

User-agent: *

Disallow: /not-allowed/

 

Applebot-Extended を許可すると、Apple の生成 AI モデルの機能と品質が、時間の経過とともに向上します。

e.g.次のように、robots.txt にルールを追加して、Applebot-Extended を許可しないように設定することができます。

User-agent: Applebot-Extended

Disallow: /private/

 

 

 

詳細不明系

The Knowledge AI(ナレッジAI)

詳細は不明。

とりあえず robots.txtに

User-agent: The Knowledge AI

Disallow: /

 

この企業のもの?

https://docs.cognigy.com/ai/empower/knowledge-ai/overview/#create-a-knowledge-store

もしくはオープンソースではないか?という推定のみ。

 

 

cohere-ai

この企業ではないか?

https://cohere.com/

という推定のみ

とりあえず robots.txtに

User-agent: cohere-ai

Disallow: /

 






関連記事
.git/config へアクセスしてきた皆さん

ImagesiftBotクローラーとは

不正アクセスをするネットワークサービスのランキング

セキュリティホールを狙うアクセスログ例

偽装されたユーザーエージェント