Webロボット/Webクローラー/Webスパイダーについてのメモ




トップページへ

サイト運営者様向け記事です。

目次

最近発見したボット

主要なボット

ボット一覧

 

最近発見したbot

単なるユーザーエージェントの名称も含みます。そのため、robots.txtに記述しただけではブロックできない場合があり、その場合はIPブロックで対応するしかありません。

またブロックをし過ぎるとSEO的にはデメリットが多いのでご自身で判断して下さい。

あくまでここに掲載しているbot、クローラーは「存在する」というだけで「悪い」という意味ではありません。(順不同)

anthropic-ai
ClaudeBot
Claude-Web
cohere-ai
colly
Foregenix ThreatView Security Auditor (threatview.app)
FreakOutAdsTxtBot
Go-http-client
ImagesiftBot
Inoreader
IonCrawl
企業側説明
MegaIndex
omgili
omgilibot
peer39_crawler
PetalBot
PiplBot
python-asks
Scrapy
SeekportBot
SemrushBot-BA
SpaceCowboys
Spawning-AI
The Knowledge AI
Verity
wpbot

Friendly_Crawler
(ユーザーエージェントとしては Friendly_Crawler/Nutch-1.20-SNAPSHOT)

 

 

主要なボット

webロボット、robots.txtに関する公式サイト

http://www.robotstxt.org/ 英語

 

Webロボットに関するデータベース

http://www.robotstxt.org/db.html 英語

 

Goolge提供 robots.txtの概要

https://developers.google.com/search/docs/advanced/robots/intro?hl=ja

 

 

Microsoft社製ボットについて 英語

ロボット名:概要

Bingbot:検索エンジン系標準クローラー

AdIdxBot:Bing広告用クローラー

BingPreview:ページのスナップショット用クローラー

 

 

検索エンジン系ボット

Yahooクローラー

Y!J-BRW

公式

LINE クローラー

Linespider

公式

 

 

YandexBot・ロシアについて

公式サイト 英語

許可・不許可

MJ12bot・イギリスについて

公式サイト 英語

抜粋

当社はコミュニティ ベースの分散クローラーであるため、連続した IP ブロックは使用しません。ボットが robots.txt 自体を実際に取得できることを常に確認してください。取得できない場合は、サイトをクロールしても問題ないとみなされます。

 

Baiduspider・百度(バイドゥ)・中国について

robots_百度百科 (baidu.com)

 

Sogou web spider, Sogou inst spider・中国について

ヘルプセンター (sogou.com)

 

360検索・中国について

360 Search は Robots プロトコルをサポートしています

 

Yeti・韓国について

네이버 고객센터 (naver.com)

 

Daum・韓国について

許可 ・ 不許可

 

 

商用クローラー

 

AhrefsBot・シンガポール

http://ahrefs.com/robot/

リンク先には、Ahrefs社が作成したボット一覧(検索エンジン系ボット、商用クローラー、フィード取得、監視ボット)あり。また同社のボットは「Googlebotの次にアクティブなボット」とのこと。

抜粋

検索エンジン系ボット
GOOGLEBOT 3.87%
YANDEX BOT 0.85%
MSN/BINGBOT 0.64%
YAHOO SLURP BOT 0.27%
MJ12 BOT 0.26%
BAIDU SPIDER 0.23%
MAIL RU BOT 0.11%
HAOSOU 360 SPIDER 0.1%
SOGOU SPIDER 0.09%
GOOGLE ADS BOT 0.08%

商用クローラー
AHREFSBOT 0.99%
PROXIMIC BOT 0.24%
SEMRUSHBOT 0.23%
DOTMIC DOTBOT 0.08%
PINTEREST BOT 0.08%
YISOUSPIDER 0.06%
XOVIBOT 0.06%
ADMANTX BOT 0.06%
GRAPESHOT BOT 0.05%
ALEXA BOT 0.04%

フィード取得
FACEBOOK MOBILE APP 4.16%
ANDROID FRAMEWORK BOT 1.99%
CFNETWORK BOT 1.47%
.NET WEBCLIENT 0.81%
FACEBOOK XTERNAL HIT 0.64%
WINDOWS PHONE WEBCLIENT 0.64%
ADOBE AIR 0.24%
GOOGLE FEEDFETCHER 0.2%
TWITTER BOT 0.14%
FEEDBURNER 0.1%

監視ボット
WORDPRESS(PINGBACK) 0.27%
PAESSLER MONITOR 0.09%
UPTIMEBOT 0.06%
SITE24X7 TOOLS 0.05%
KEYNOTE 0.05%

 

Verity

https://gumgum.com/verity

から転送

https://ja.gumgum.com/

 

proximic・comscore

http://www.proximic.com/info/spider.php

 

Pinterest・アメリカについて

Pinterest/0.2など

公式サイト

 

GrapeshotCrawler・オラクル

http://www.grapeshot.co.uk/crawler.php

 

Applebot

Siri や Spotlightなど向け

許可・不許可

http://www.apple.com/go/applebot

 

BLEXBot・ドイツについて

公式サイト 英語

 

 

その他・不明

 

Amazon-Advertising-ad-standards-bot・Amazon系広告

 

DataForSeoBot・SEO系

https://dataforseo.com/dataforseo-bot

TTD-Content・広告系

https://www.thetradedesk.com/general/ttd-content

SurdotlyBot・セキュリティ分析

http://sur.ly/bot.html

DotBot・カナダ

https://opensiteexplorer.org/dotbot

Adsbot・コロンビア

https://seostar.co/robot/

MicroAdBot・詳細不明

https://www.microad.co.jp/

TTD-Content・アメリカなど

https://www.thetradedesk.com/general/ttd-content

Cincraw

http://cincrawdata.net/bot/

企業:https://www.cinc-j.co.jp/

ias-ir/3.1

広告系のようですが、セキュリティソフトが「アクセスは危険」と表示するので、リンクなしにしています。アクセスは自己責任でお願いします。

https://www.admantx.com/service-fetcher.html

 

 

ボット一覧

この項目は、前述までの記事とは別に「分類分け」をしているため重複します。

また、良いボット悪いボットという分け方はしていないこと、広告系ボットなどボットの名称は管理人がつけた名称であること、補足も管理人なりの解釈であることをご理解ご了承下さい。

ですので、SEO系のボットと思っていたら被リンク調査系だったり、広告系と思っていたらSEO系のボットの可能性がありますので、ブロックする場合は、ご自身の調査のうえご判断して下さい。あくまでもこの記事は「検索の手助け」になれば幸いです。(適宜更新の予定)

 

広告系ボット

サイトごとの広告の調査またはSEO系サイト。広告の費用対効果の分析

AdsTxtCrawler-CyberAgent

AmazonAdbot(Amazon広告)

bidswitchbot おそらくbidswitch.com

proximic(www.comscore.com/Web-Crawler)

CriteoBot

GrapeshotCrawler(オラクル)

IAS Crawler 広告主、広告代理店向け

MicroAdBot

Spideraf-Bot

TTD-Content

ias-au メディア品質

ias-sg・ias-ie・ias-jp

 

SEO系ボット

AhrefsBot

MJ12bot

semrush

serpstatbot

 

 

検索系ボット

Applbot Apple検索

Amazonbot Alexaなどアマゾン用

Baiduspider 中国の検索エンジン

Bytespider 中国の検索エンジン バイドゥ

coccocbot-web ベトナムの検索エンジン

Mail.RU_Bot ロシアの検索エンジン

Mail.Ru ロシアの検索エンジン

SezamBot チェコの検索エンジン

Sogou web Spider 中国の検索エンジン

Sogou inst Spider 中国の検索エンジン

Y!J-WSC ヤフー検索

Yandex ロシアの検索エンジン

YandexBot ロシアの検索エンジン

360Spider 中国の検索エンジン

360Spider-Image 中国の検索エンジン

360Spider-Video 中国の検索エンジン

ZoominfoBot Zoomの検索エンジン

 

生成AI系ボット

ChatGPT-User

https://platform.openai.com/docs/plugins/bot

GPTBot

https://platform.openai.com/docs/gptbot

 

 

アーカイブ系ボット、収集系ボット

CCBot

Cincraw Body部収集

ia_archiver

Pinterestbot 画像の収集

 

 

調査系ボット

リンク調査ボット

記事内のリンクを調査するサイト

BLEXBot

DataForSeoBot バックリンク

DotBot SEO系のmoz

SEOkicks ドイツ

 

 

インデックス作成ボット

PiplBot

https://pipl.com/bot

 

 

SNSの内容からその記事を調査

Facebot Twitterbot

Twitterbot/1.0 公式

 

サイバー犯罪調査系ボット

NetcraftSurveyAgent

 

その他の調査系

MixrankBot / mixrank.com

https://mixrank.com/

 

Censysinspect ミシガン・研究

 

icc-Crawler

国立研究開発法人 情報通信研究機構の研究用

 

WellKnownBot

.WellKnownフォルダ、ads.txtなどを調査、分析

公式

 

DuckDuckGo-Favicons-Bot アイコン調査・検索エンジン「duckduckgo.com」

 

YaK ビジネス系 https://linkfluence.com

 

Webクローリングサービスである Webz.io を強化

https://webz.io/blog/web-data/what-is-the-omgili-bot-and-why-is-it-crawling-your-website/

omgilibot

omgili

 

対象サイト

ニュースサイト
ブログ
レビュー
eコマース
メッセージボードとオンラインディスカッション

 

クローラー元の説明(引用文)

・何千人もの関連性の高い訪問者をWebプロパティに誘導できる可能性

・サイトに広告を掲載している場合、これらのサービスによって注目され、リンクされることで、広告主への魅力が高まり、サイトが生み出す収益を高める可能性

 

ユーザーエージェントが Anthill

詳細不明。どちらかではないかと推定。ただし確証なし

https://www.anthill.co/terms-of-use

https://www.anthillagency.com/

 

 

その他

不明

wpbot/1.1

問い合わせ先

https://forms.gle/ajBaxygz9jSR8p8G9

 

Slack-ImgProxy APIか?

 

 

関連記事

偽装されたユーザーエージェント

.htaccessとrobots.txt の最低限のポイント

 





ほかの ドメイン の記事

検索順位が下がったアクセス数が減った時の体験談

中国、北朝鮮、ロシア、ベラルーシからのアクセスをブロック

中国からの不正アクセス

エラーログ「client denied by server configuration」と不正アクセスへの対処

レンタルサーバーでのエラー例