ChatGPTなど生成AIのクローラーをブロックする






トップページへ

不定期で更新する予定です。

ブロックすることでご自身のサイトの記事を AI に収集されることは防げますが、なんらかのデメリットが発生するかもしれませんので、あくまもで自己責任でお願いします。

 

考えられるデメリット

・とくに検索エンジン系のクローラーの場合、サイトの検索順位に影響が出る可能性が考えられます。後述のCCBotもその可能性はゼロではありません。

 

ChatGPT系

GPTBot

https://platform.openai.com/docs/gptbot

一部引用

GPTBot は、生成 AI 基盤モデルをより便利で安全なものにするために使用されます。生成 AI 基盤モデルのトレーニングに使用される可能性のあるコンテンツをクロールするために使用されます。GPTBot を禁止すると、サイトのコンテンツは生成 AI 基盤モデルのトレーニングに使用されないことを示します

robots.txtに

User-agent: GPTBot

User-agent: OAI-Searchbot

User-agent: ChatGPT-User

Disallow: /

を書いていますが、それだけでは不安なので

前述の公式サイトの情報から、OAI-SearchBot、ChatGPT-User、GPTBotの「Published IP addresses」をクリックして表示されるIPアドレスを .htaccess でブロックしています。

 

2024/11/16 補足

IPアドレスでブロックしていたら「robots.txtを読むことができなかったためか、クロールされてしまい」ました。

403 不許可

20.171.207.60 – – [16/Nov/2024:10:52:39 +0900] “GET /robots.txt HTTP/2.0” 403 318 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”

200 クロールされた

4.227.36.88 – – [16/Nov/2024:10:52:43 +0900] “GET /wp-content/uploads/2021/07/XXXX-300×38.webp HTTP/2.0” 200 2044 “-” “Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”

 

ですので20.171.207.60 を許可するために下記のIPアドレスの1行を  robots.txt内で

#deny from 20.171.207.0/24

をコメントアウトにしました。

 

 

Published IP addresses

{
  "creationTime": "2024-09-19T20:15:00.000000",
  "prefixes": [
    {
      "ipv4Prefix": "20.42.10.176/28"
    },
    {
      "ipv4Prefix": "172.203.190.128/28"
    },
    {
      "ipv4Prefix": "51.8.102.0/24"
    }
  ]
}
{
  "creationTime": "2024-10-09T05:30:00.000000",
  "prefixes": [
    {
      "ipv4Prefix": "23.98.142.176/28"
    },
    {
      "ipv4Prefix": "40.84.180.224/28"
    },
    {
      "ipv4Prefix": "13.65.240.240/28"
    },
    {
      "ipv4Prefix": "20.97.189.96/28"
    },
    {
      "ipv4Prefix": "20.161.75.208/28"
    },
    {
      "ipv4Prefix": "52.225.75.208/28"
    },
    {
      "ipv4Prefix": "52.156.77.144/28"
    },
    {
      "ipv4Prefix": "40.84.221.208/28"
    },
    {
      "ipv4Prefix": "40.84.221.224/28"
    },
    {
      "ipv4Prefix": "40.84.180.64/28"
    },
    {
      "ipv4Prefix": "23.98.179.16/28"
    },
    {
      "ipv4Prefix": "51.8.155.48/28"
    },
    {
      "ipv4Prefix": "135.237.131.208/28"
    },
    {
      "ipv4Prefix": "172.178.140.144/28"
    },
    {
      "ipv4Prefix": "172.178.141.128/28"
    }
  ]
}
{
 
  "creationTime": "2023-11-30T11:51:00.000000",
  "prefixes": [
    {
      "ipv4Prefix": "52.230.152.0/24"
    },
    {
      "ipv4Prefix": "52.233.106.0/24"
    },
    {
      "ipv4Prefix": "20.171.206.0/24"
    },
    {
      "ipv4Prefix": "20.171.207.0/24"
    },
    {
      "ipv4Prefix": "4.227.36.0/25"
    }
  ]
}

 

 

 

Anthropic(アンソロピック)

Q.Anthropicはウェブからデータをクロールしていますか?また、サイト所有者はどのようにしてクローラーをブロックできますか?

A.robots.txtに

User-agent: ClaudeBot

Disallow: /

個人的に同じアンソロピック社の

User-agent: anthropic-ai

User-agent: Claude-Web

も追加しブロックしています。

 

 

Spawning-AI

公式サイト

https://spawning.ai/ai-txt

で「ブロックするファイル種別、許可するファイル種別」を選ぶと ai.txt が生成されるのでそれをダウンロードしてルートに設置します。

 

 

CCBot

公式サイト

robots.txtに

User-agent: CCBot

Disallow: /

補足:AIではないですがオープンデータなので、AIに流用される可能性があると私は判断しています。

 

Copilot

マイクロソフト社の個人用AIアシスタント

記載はありませんが、

robots.txtに

User-agent: Copilot

Disallow: /

 

PetalBot

ファーウェイの検索エンジン用であり、同社のアシスタントおよびAI検索サービス用とのこと

User-agent: PetalBot
Disallow: /

 

Applebot

アップル社

引用

Applebot によってクロールされたデータは、Spotlight、Siri、Safari といった Apple のエコシステムの多くのユーザ体験に組み込まれた検索テクノロジーをはじめとするさまざまな機能を強化するために使用されます

e.g.以下の例では、Applebot は「/private/」や「/not-allowed/」の下位にある書類はクローリングしません。

User-agent: Applebot

Allow: /

Disallow: /private/

 

User-agent: *

Disallow: /not-allowed/

 

Applebot-Extended を許可すると、Apple の生成 AI モデルの機能と品質が、時間の経過とともに向上します。

e.g.次のように、robots.txt にルールを追加して、Applebot-Extended を許可しないように設定することができます。

User-agent: Applebot-Extended

Disallow: /private/

 

 

 

詳細不明系

The Knowledge AI(ナレッジAI)

詳細は不明。

とりあえず robots.txtに

User-agent: The Knowledge AI

Disallow: /

 

この企業のもの?

https://docs.cognigy.com/ai/empower/knowledge-ai/overview/#create-a-knowledge-store

もしくはオープンソースではないか?という推定のみ。

 

 

cohere-ai

この企業ではないか?

https://cohere.com/

という推定のみ

とりあえず robots.txtに

User-agent: cohere-ai

Disallow: /

 






関連記事
.git/config へアクセスしてきた皆さん

ImagesiftBotクローラーとは

不正アクセスをするネットワークサービスのランキング

セキュリティホールを狙うアクセスログ例

偽装されたユーザーエージェント