ChatGPTなど生成AIのクローラーをブロックする
トップページへ
不定期で更新する予定です。
ブロックすることでご自身のサイトの記事を AI に収集されることは防げますが、なんらかのデメリットが発生するかもしれませんので、あくまもで自己責任でお願いします。
考えられるデメリット
・とくに検索エンジン系のクローラーの場合、サイトの検索順位に影響が出る可能性が考えられます。後述のCCBotもその可能性はゼロではありません。
ChatGPT系
GPTBot
https://platform.openai.com/docs/gptbot
一部引用
GPTBot は、生成 AI 基盤モデルをより便利で安全なものにするために使用されます。生成 AI 基盤モデルのトレーニングに使用される可能性のあるコンテンツをクロールするために使用されます。GPTBot を禁止すると、サイトのコンテンツは生成 AI 基盤モデルのトレーニングに使用されないことを示します
robots.txtに
User-agent: GPTBot
User-agent: OAI-Searchbot
User-agent: ChatGPT-User
Disallow: /
を書いていますが、それだけでは不安なので
前述の公式サイトの情報から、OAI-SearchBot、ChatGPT-User、GPTBotの「Published IP addresses」をクリックして表示されるIPアドレスを .htaccess でブロックしています。
2024/11/16 補足
IPアドレスでブロックしていたら「robots.txtを読むことができなかったためか、クロールされてしまい」ました。
403 不許可
20.171.207.60 – – [16/Nov/2024:10:52:39 +0900] “GET /robots.txt HTTP/2.0” 403 318 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”
200 クロールされた
4.227.36.88 – – [16/Nov/2024:10:52:43 +0900] “GET /wp-content/uploads/2021/07/XXXX-300×38.webp HTTP/2.0” 200 2044 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”
ですので20.171.207.60 を許可するために下記のIPアドレスの1行を robots.txt内で
#deny from 20.171.207.0/24
をコメントアウトにしました。
Published IP addresses
{ "creationTime": "2024-09-19T20:15:00.000000", "prefixes": [ { "ipv4Prefix": "20.42.10.176/28" }, { "ipv4Prefix": "172.203.190.128/28" }, { "ipv4Prefix": "51.8.102.0/24" } ] }
{ "creationTime": "2024-10-09T05:30:00.000000", "prefixes": [ { "ipv4Prefix": "23.98.142.176/28" }, { "ipv4Prefix": "40.84.180.224/28" }, { "ipv4Prefix": "13.65.240.240/28" }, { "ipv4Prefix": "20.97.189.96/28" }, { "ipv4Prefix": "20.161.75.208/28" }, { "ipv4Prefix": "52.225.75.208/28" }, { "ipv4Prefix": "52.156.77.144/28" }, { "ipv4Prefix": "40.84.221.208/28" }, { "ipv4Prefix": "40.84.221.224/28" }, { "ipv4Prefix": "40.84.180.64/28" }, { "ipv4Prefix": "23.98.179.16/28" }, { "ipv4Prefix": "51.8.155.48/28" }, { "ipv4Prefix": "135.237.131.208/28" }, { "ipv4Prefix": "172.178.140.144/28" }, { "ipv4Prefix": "172.178.141.128/28" } ] }
{ "creationTime": "2023-11-30T11:51:00.000000", "prefixes": [ { "ipv4Prefix": "52.230.152.0/24" }, { "ipv4Prefix": "52.233.106.0/24" }, { "ipv4Prefix": "20.171.206.0/24" }, { "ipv4Prefix": "20.171.207.0/24" }, { "ipv4Prefix": "4.227.36.0/25" } ] }
Anthropic(アンソロピック)
Q.Anthropicはウェブからデータをクロールしていますか?また、サイト所有者はどのようにしてクローラーをブロックできますか?
A.robots.txtに
User-agent: ClaudeBot
Disallow: /
個人的に同じアンソロピック社の
User-agent: anthropic-ai
User-agent: Claude-Web
も追加しブロックしています。
Spawning-AI
公式サイト
で「ブロックするファイル種別、許可するファイル種別」を選ぶと ai.txt が生成されるのでそれをダウンロードしてルートに設置します。
CCBot
robots.txtに
User-agent: CCBot
Disallow: /
補足:AIではないですがオープンデータなので、AIに流用される可能性があると私は判断しています。
Copilot
記載はありませんが、
robots.txtに
User-agent: Copilot
Disallow: /
PetalBot
ファーウェイの検索エンジン用であり、同社のアシスタントおよびAI検索サービス用とのこと
User-agent: PetalBot
Disallow: /
Applebot
引用
Applebot によってクロールされたデータは、Spotlight、Siri、Safari といった Apple のエコシステムの多くのユーザ体験に組み込まれた検索テクノロジーをはじめとするさまざまな機能を強化するために使用されます
e.g.以下の例では、Applebot は「/private/」や「/not-allowed/」の下位にある書類はクローリングしません。
User-agent: Applebot
Allow: /
Disallow: /private/
User-agent: *
Disallow: /not-allowed/
Applebot-Extended を許可すると、Apple の生成 AI モデルの機能と品質が、時間の経過とともに向上します。
e.g.次のように、robots.txt にルールを追加して、Applebot-Extended を許可しないように設定することができます。
User-agent: Applebot-Extended
Disallow: /private/
詳細不明系
The Knowledge AI(ナレッジAI)
詳細は不明。
とりあえず robots.txtに
User-agent: The Knowledge AI
Disallow: /
この企業のもの?
https://docs.cognigy.com/ai/empower/knowledge-ai/overview/#create-a-knowledge-store
もしくはオープンソースではないか?という推定のみ。
cohere-ai
この企業ではないか?
という推定のみ
とりあえず robots.txtに
User-agent: cohere-ai
Disallow: /