Webロボット/Webクローラー/Webスパイダーについてのメモ
トップページへ
サイト運営者様向け記事です。
生成AI系クローラーは別記事です
目次
最近発見したボット
主要なボット
ボット一覧
最近発見したbot
単なるユーザーエージェントの名称も含みます。そのため、robots.txtに記述しただけではブロックできない場合があり、その場合はIPブロックで対応するしかありません。
またブロックをし過ぎるとSEO的にはデメリットが多いのでご自身で判断して下さい。
あくまでここに掲載しているbot、クローラーは「存在する」というだけで「悪い」という意味ではありません。(順不同)
AliyunSecBot/Aliyun
→アリババ。問い合わせ先として
AliyunSecBot@service.alibaba.com
2ip bot
2ip botの公式サイト
→意図は不明ですがMSのCopilotによれば「IPアドレスに関するさまざまな情報やツールを提供するウェブサイト」ということでしたが、真偽不明です。
weborama-fetcher
→weborama-fetcherのサイトによれば広告系と判断しました
SB Intuitions Corp./0.1
→ソフトバンク系の「日本語に特化した大規模言語モデル」のためのクローラーと推定。関連記事
Foregenix ThreatView Security Auditor
→意図は不明です。公式サイトと推定されるURL threatview.app
t3versionsBot/1.0
→t3versionsBotの公式(英語)によれば「ドイツ製でTYPO3というCMSを使用しているかどうか、使用している場合は使用中のドメインとして保存・分析をする目的のWebクローラー」とのことでした。
CheckMarkNetwork
→CheckMarkNetworkの公式(英語)の「クローラーを使用して Web からデータを抽出します。クローラーは Web クロール ボットであり、ナレッジ ベースに追加してさらに処理する新しいページを検出」
meta-externalagent
メタ社のクローラー(英語)で「AI モデルのトレーニングや、コンテンツに直接インデックスを付けて製品を改善するなど」
InternetMeasurement/1.0
→InternetMeasurementの公式サイト(英語)によれば「これは、ネットワークの所有者と運用者が公開したサービスを検出して測定するために使用され、このドメインからのトラフィックは攻撃ではありません。このドメインからのトラフィックは、システムへのログインを試みません。このドメインからスパムは送信されません」と表記
Domains Project/1.3.7
→Domains Projectの公式サイト(英語)によれば「研究用のデータ収集サイト」と書かれていますが、詳細は不明です
CyberFindCrawler
→CyberFindCrawlerの公式サイト(英語)によれば
「検索エンジン」とのことですが国籍をはじめ詳細は不明です。なおそのドメインはアメリカで取得されていました。
AwarioBot
→AwarioBotの公式サイト(英語)によれば
「AwarioSmartBot と AwarioRssBot は Web データを収集し、Awario アプリケーションでさらに使用して、インターネット マーケティング担当者が自社のブランドについてオンラインで言及しているユーザーを見つけられるようにします」
Twingly Recon
*feedへのアクセスか?
AudigentAdBot
*広告系
ALittle Client
※詳細は調べていませんが挙動が怪しいので警戒すべきクローラーです
SirdataBot
そのBotの企業Semantic APIの説明(英語)
*広告系
Barkrowler
公式
https://www.babbar.tech/crawler
*マーケティング、SEO系
Foregenix ThreatView Security Auditor (threatview.app)
FreakOutAdsTxtBot
Go-http-client
ImagesiftBot
→別記事
Inoreader
IonCrawl
→企業側説明
MegaIndex
omgili
omgilibot
peer39_crawler
PiplBot
python-asks
Scrapy bot
*データ抽出、マイニングなどのアプリケーション
SemrushBot-BA
SpaceCowboys
Verity
wpbot
Timpibot/0.9
webの内容からニュージーランドの検索エンジン、SEO、AIなど
Friendly_Crawler
(ユーザーエージェントとしては Friendly_Crawler/Nutch-1.20-SNAPSHOT)
主要なボット
webロボット、robots.txtに関する公式サイト
Webロボットに関するデータベース
http://www.robotstxt.org/db.html 英語
Goolge提供 robots.txtの概要
https://developers.google.com/search/docs/advanced/robots/intro?hl=ja
ロボット名:概要
Bingbot:検索エンジン系標準クローラー
AdIdxBot:Bing広告用クローラー
BingPreview:ページのスナップショット用クローラー
検索エンジン系ボット
Yahooクローラー
Y!J-BRW
LINE クローラー
Linespider
YandexBot・ロシアについて
公式サイト 英語
MJ12bot・イギリスについて
公式サイト 英語
抜粋
当社はコミュニティ ベースの分散クローラーであるため、連続した IP ブロックは使用しません。ボットが robots.txt 自体を実際に取得できることを常に確認してください。取得できない場合は、サイトをクロールしても問題ないとみなされます。
Baiduspider・百度(バイドゥ)・中国について
Sogou web spider, Sogou inst spider・中国について
360検索・中国について
360 Search は Robots プロトコルをサポートしています
Yeti・韓国について
Daum・韓国について
SeekportBot・ドイツ
→公式説明
商用クローラー
AhrefsBot・シンガポール
リンク先には、Ahrefs社が作成したボット一覧(検索エンジン系ボット、商用クローラー、フィード取得、監視ボット)あり。また同社のボットは「Googlebotの次にアクティブなボット」とのこと。
抜粋
検索エンジン系ボット
GOOGLEBOT 3.87%
YANDEX BOT 0.85%
MSN/BINGBOT 0.64%
YAHOO SLURP BOT 0.27%
MJ12 BOT 0.26%
BAIDU SPIDER 0.23%
MAIL RU BOT 0.11%
HAOSOU 360 SPIDER 0.1%
SOGOU SPIDER 0.09%
GOOGLE ADS BOT 0.08%
商用クローラー
AHREFSBOT 0.99%
PROXIMIC BOT 0.24%
SEMRUSHBOT 0.23%
DOTMIC DOTBOT 0.08%
PINTEREST BOT 0.08%
YISOUSPIDER 0.06%
XOVIBOT 0.06%
ADMANTX BOT 0.06%
GRAPESHOT BOT 0.05%
ALEXA BOT 0.04%
フィード取得
FACEBOOK MOBILE APP 4.16%
ANDROID FRAMEWORK BOT 1.99%
CFNETWORK BOT 1.47%
.NET WEBCLIENT 0.81%
FACEBOOK XTERNAL HIT 0.64%
WINDOWS PHONE WEBCLIENT 0.64%
ADOBE AIR 0.24%
GOOGLE FEEDFETCHER 0.2%
TWITTER BOT 0.14%
FEEDBURNER 0.1%
監視ボット
WORDPRESS(PINGBACK) 0.27%
PAESSLER MONITOR 0.09%
UPTIMEBOT 0.06%
SITE24X7 TOOLS 0.05%
KEYNOTE 0.05%
Verity
https://gumgum.com/verity
から転送
proximic・comscore
http://www.proximic.com/info/spider.php
Pinterest・アメリカについて
Pinterest/0.2
Pinterestbot 画像の収集
など
GrapeshotCrawler・オラクル
http://www.grapeshot.co.uk/crawler.php
その他・不明
Amazon-Advertising-ad-standards-bot・Amazon系広告
DataForSeoBot・SEO系
https://dataforseo.com/dataforseo-bot
TTD-Content・広告系
https://www.thetradedesk.com/general/ttd-content
SurdotlyBot・セキュリティ分析
DotBot・カナダ
https://opensiteexplorer.org/dotbot
Adsbot・コロンビア・不明
https://seostar.co/robot/
MicroAdBot・広告系
Cincraw
ias-ir/3.1
広告系のようですが、セキュリティソフトが「アクセスは危険」と表示するので、リンクなしにしています。アクセスは自己責任でお願いします。
https://www.admantx.com/service-fetcher.html
ボット一覧
この項目は、前述までの記事とは別に「分類分け」をしているため重複します。
また、良いボット悪いボットという分け方はしていないこと、広告系ボットなどボットの名称は管理人がつけた名称であること、補足も管理人なりの解釈であることをご理解ご了承下さい。
ですので、SEO系のボットと思っていたら被リンク調査系だったり、広告系と思っていたらSEO系のボットの可能性がありますので、ブロックする場合は、ご自身の調査のうえご判断して下さい。あくまでもこの記事は「検索の手助け」になれば幸いです。(適宜更新の予定)
広告系ボット
サイトごとの広告の調査またはSEO系サイト。広告の費用対効果の分析
AdsTxtCrawler-CyberAgent
AmazonAdbot(Amazon広告)
bidswitchbot おそらくbidswitch.com
proximic(www.comscore.com/Web-Crawler)
CriteoBot
GrapeshotCrawler(オラクル)
IAS Crawler 広告主、広告代理店向け
MicroAdBot
Spideraf-Bot
TTD-Content
ias-au メディア品質
ias-sg・ias-ie・ias-jp
SEO系ボット
AhrefsBot
MJ12bot
semrush
serpstatbot
引用
当社はマーケティング キャンペーンの計画と監視のために、市場最大級のバックリンク データベースへのアクセスをユーザーに提供しています。
検索系ボット
Applbot Apple検索
Amazonbot Alexaなどアマゾン用
Baiduspider 中国の検索エンジン
Bytespider 中国の検索エンジン バイドゥ
coccocbot-web ベトナムの検索エンジン
Mail.RU_Bot ロシアの検索エンジン
Mail.Ru ロシアの検索エンジン
SezamBot チェコの検索エンジン
Sogou web Spider 中国の検索エンジン
Sogou inst Spider 中国の検索エンジン
PetalBot ファーウェイの検索エンジン(AI検索含む)
Y!J-WSC ヤフー検索
Yandex ロシアの検索エンジン
YandexBot ロシアの検索エンジン
360Spider 中国の検索エンジン
360Spider-Image 中国の検索エンジン
360Spider-Video 中国の検索エンジン
ZoominfoBot Zoomの検索エンジン
生成AI系ボット
ChatGPT-User
GPTBot
別記事で詳しく
アーカイブ系ボット、収集系ボット
CCBot
Cincraw Body部収集
ia_archiver
調査系ボット
リンク調査ボット
記事内のリンクを調査するサイト
BLEXBot・ドイツ・市場調査系
→BLEXBot公式サイト 英語
DataForSeoBot バックリンク
DotBot SEO系のmoz
SEOkicksの公式 ドイツ
インデックス作成ボット
PiplBot
SNSの内容からその記事を調査
Facebot Twitterbot
Twitterbot/1.0 公式
サイバー犯罪調査系ボット
NetcraftSurveyAgent
その他の調査系
MixrankBot / mixrank.com
Censysinspect ミシガン・研究
→公式と思われるサイト(英語)
icc-Crawler
国立研究開発法人 情報通信研究機構の研究用
WellKnownBot
.WellKnownフォルダ、ads.txtなどを調査、分析
(公式)
DuckDuckGo-Favicons-Bot アイコン調査・検索エンジン「duckduckgo.com」
YaK ビジネス系、市場調査?
Webクローリングサービスである Webz.io を強化
https://webz.io/blog/web-data/what-is-the-omgili-bot-and-why-is-it-crawling-your-website/
omgilibot
omgili
対象サイト
ニュースサイト
ブログ
レビュー
eコマース
メッセージボードとオンラインディスカッション
クローラー元の説明(引用文)
・何千人もの関連性の高い訪問者をWebプロパティに誘導できる可能性
・サイトに広告を掲載している場合、これらのサービスによって注目され、リンクされることで、広告主への魅力が高まり、サイトが生み出す収益を高める可能性
ユーザーエージェントが Anthill
2025/1/2 追加
Anthillユーザー エージェントは、ドイツのマンハイム大学の研究プロジェクトに関連付けられ、エージェントベースのアプリケーションを開発するためのフレームワークの一部、という意見もありましたが確証は無い。
下記は以前に推定。ただし確証なし
https://www.anthill.co/terms-of-use
https://www.anthillagency.com/
その他
不明
wpbot/1.1
問い合わせ先
https://forms.gle/ajBaxygz9jSR8p8G9
Slack-ImgProxy APIか?
関連記事
.htaccessとrobots.txt の最低限のポイント