Webロボット/Webクローラー/Webスパイダーについてのメモ






トップページへ

サイト運営者様向け記事です。

生成AI系クローラーは別記事です

 

目次

最近発見したボット

主要なボット

ボット一覧

 

最近発見したbot

単なるユーザーエージェントの名称も含みます。そのため、robots.txtに記述しただけではブロックできない場合があり、その場合はIPブロックで対応するしかありません。

またブロックをし過ぎるとSEO的にはデメリットが多いのでご自身で判断して下さい。

あくまでここに掲載しているbot、クローラーは「存在する」というだけで「悪い」という意味ではありません。(順不同)

 

AliyunSecBot/Aliyun

→アリババ。問い合わせ先として

AliyunSecBot@service.alibaba.com

 

2ip bot

2ip botの公式サイト

→意図は不明ですがMSのCopilotによれば「IPアドレスに関するさまざまな情報やツールを提供するウェブサイト」ということでしたが、真偽不明です。

 

weborama-fetcher

weborama-fetcherのサイトによれば広告系と判断しました

 

SB Intuitions Corp./0.1

→ソフトバンク系の「日本語に特化した大規模言語モデル」のためのクローラーと推定。関連記事

 

Foregenix ThreatView Security Auditor

→意図は不明です。公式サイトと推定されるURL threatview.app

 

t3versionsBot/1.0

t3versionsBotの公式(英語)によれば「ドイツ製でTYPO3というCMSを使用しているかどうか、使用している場合は使用中のドメインとして保存・分析をする目的のWebクローラー」とのことでした。

 

CheckMarkNetwork

CheckMarkNetworkの公式(英語)の「クローラーを使用して Web からデータを抽出します。クローラーは Web クロール ボットであり、ナレッジ ベースに追加してさらに処理する新しいページを検出」

 

meta-externalagent

メタ社のクローラー(英語)で「AI モデルのトレーニングや、コンテンツに直接インデックスを付けて製品を改善するなど」

 

InternetMeasurement/1.0

InternetMeasurementの公式サイト(英語)によれば「これは、ネットワークの所有者と運用者が公開したサービスを検出して測定するために使用され、このドメインからのトラフィックは攻撃ではありません。このドメインからのトラフィックは、システムへのログインを試みません。このドメインからスパムは送信されません」と表記

 

Domains Project/1.3.7

Domains Projectの公式サイト(英語)によれば「研究用のデータ収集サイト」と書かれていますが、詳細は不明です

 

CyberFindCrawler

CyberFindCrawlerの公式サイト(英語)によれば

「検索エンジン」とのことですが国籍をはじめ詳細は不明です。なおそのドメインはアメリカで取得されていました。

 

AwarioBot

AwarioBotの公式サイト(英語)によれば

「AwarioSmartBot と AwarioRssBot は Web データを収集し、Awario アプリケーションでさらに使用して、インターネット マーケティング担当者が自社のブランドについてオンラインで言及しているユーザーを見つけられるようにします」

 

Twingly Recon

Twingly Reconと思われるサイト(英語)

*feedへのアクセスか?

 

AudigentAdBot

AudigentAdBotの企業の公式サイト(英語)

*広告系

 

ALittle Client

※詳細は調べていませんが挙動が怪しいので警戒すべきクローラーです

 

SirdataBot

そのBotの企業Semantic APIの説明(英語)

*広告系

 

Barkrowler

公式

https://www.babbar.tech/crawler

*マーケティング、SEO系

 

Foregenix ThreatView Security Auditor (threatview.app)
FreakOutAdsTxtBot
Go-http-client

ImagesiftBot

別記事

Inoreader

IonCrawl
企業側説明

MegaIndex
omgili
omgilibot
peer39_crawler
PiplBot
python-asks

 

Scrapy bot

公式と思われるサイト

*データ抽出、マイニングなどのアプリケーション

 

SemrushBot-BA
SpaceCowboys
Verity
wpbot

 

Timpibot/0.9

https://timpi.io/

webの内容からニュージーランドの検索エンジン、SEO、AIなど

 

Friendly_Crawler
(ユーザーエージェントとしては Friendly_Crawler/Nutch-1.20-SNAPSHOT)

 

 

主要なボット

webロボット、robots.txtに関する公式サイト

http://www.robotstxt.org/ 英語

 

Webロボットに関するデータベース

http://www.robotstxt.org/db.html 英語

 

Goolge提供 robots.txtの概要

https://developers.google.com/search/docs/advanced/robots/intro?hl=ja

 

 

Microsoft社製ボットについて 英語

ロボット名:概要

Bingbot:検索エンジン系標準クローラー

AdIdxBot:Bing広告用クローラー

BingPreview:ページのスナップショット用クローラー

 

 

検索エンジン系ボット

Yahooクローラー

Y!J-BRW

公式

LINE クローラー

Linespider

公式

 

 

YandexBot・ロシアについて

公式サイト 英語

許可・不許可

MJ12bot・イギリスについて

公式サイト 英語

抜粋

当社はコミュニティ ベースの分散クローラーであるため、連続した IP ブロックは使用しません。ボットが robots.txt 自体を実際に取得できることを常に確認してください。取得できない場合は、サイトをクロールしても問題ないとみなされます。

 

Baiduspider・百度(バイドゥ)・中国について

robots_百度百科 (baidu.com)

 

Sogou web spider, Sogou inst spider・中国について

ヘルプセンター (sogou.com)

 

360検索・中国について

360 Search は Robots プロトコルをサポートしています

 

Yeti・韓国について

네이버 고객센터 (naver.com)

 

Daum・韓国について

許可 ・ 不許可

 

SeekportBot・ドイツ

公式説明

 

 

商用クローラー

 

AhrefsBot・シンガポール

http://ahrefs.com/robot/

日本法人

リンク先には、Ahrefs社が作成したボット一覧(検索エンジン系ボット、商用クローラー、フィード取得、監視ボット)あり。また同社のボットは「Googlebotの次にアクティブなボット」とのこと。

抜粋

検索エンジン系ボット
GOOGLEBOT 3.87%
YANDEX BOT 0.85%
MSN/BINGBOT 0.64%
YAHOO SLURP BOT 0.27%
MJ12 BOT 0.26%
BAIDU SPIDER 0.23%
MAIL RU BOT 0.11%
HAOSOU 360 SPIDER 0.1%
SOGOU SPIDER 0.09%
GOOGLE ADS BOT 0.08%

商用クローラー
AHREFSBOT 0.99%
PROXIMIC BOT 0.24%
SEMRUSHBOT 0.23%
DOTMIC DOTBOT 0.08%
PINTEREST BOT 0.08%
YISOUSPIDER 0.06%
XOVIBOT 0.06%
ADMANTX BOT 0.06%
GRAPESHOT BOT 0.05%
ALEXA BOT 0.04%

フィード取得
FACEBOOK MOBILE APP 4.16%
ANDROID FRAMEWORK BOT 1.99%
CFNETWORK BOT 1.47%
.NET WEBCLIENT 0.81%
FACEBOOK XTERNAL HIT 0.64%
WINDOWS PHONE WEBCLIENT 0.64%
ADOBE AIR 0.24%
  GOOGLE FEEDFETCHER 0.2%
TWITTER BOT 0.14%
FEEDBURNER 0.1%

監視ボット
WORDPRESS(PINGBACK) 0.27%
PAESSLER MONITOR 0.09%
UPTIMEBOT 0.06%
SITE24X7 TOOLS 0.05%
KEYNOTE 0.05%

 

Verity

https://gumgum.com/verity

から転送

https://ja.gumgum.com/

 

proximic・comscore

http://www.proximic.com/info/spider.php

 

Pinterest・アメリカについて

Pinterest/0.2

Pinterestbot 画像の収集

など

公式サイト

 

GrapeshotCrawler・オラクル

http://www.grapeshot.co.uk/crawler.php

 

 

 

その他・不明

 

Amazon-Advertising-ad-standards-bot・Amazon系広告

 

DataForSeoBot・SEO系

https://dataforseo.com/dataforseo-bot

TTD-Content・広告系

https://www.thetradedesk.com/general/ttd-content

SurdotlyBot・セキュリティ分析

http://sur.ly/bot.html

DotBot・カナダ

https://opensiteexplorer.org/dotbot

Adsbot・コロンビア・不明

https://seostar.co/robot/

MicroAdBot・広告系

https://www.microad.co.jp/

Cincraw

http://cincrawdata.net/bot/

企業:https://www.cinc-j.co.jp/

ias-ir/3.1

広告系のようですが、セキュリティソフトが「アクセスは危険」と表示するので、リンクなしにしています。アクセスは自己責任でお願いします。

https://www.admantx.com/service-fetcher.html

 

 

ボット一覧

この項目は、前述までの記事とは別に「分類分け」をしているため重複します。

また、良いボット悪いボットという分け方はしていないこと、広告系ボットなどボットの名称は管理人がつけた名称であること、補足も管理人なりの解釈であることをご理解ご了承下さい。

ですので、SEO系のボットと思っていたら被リンク調査系だったり、広告系と思っていたらSEO系のボットの可能性がありますので、ブロックする場合は、ご自身の調査のうえご判断して下さい。あくまでもこの記事は「検索の手助け」になれば幸いです。(適宜更新の予定)

 

広告系ボット

サイトごとの広告の調査またはSEO系サイト。広告の費用対効果の分析

AdsTxtCrawler-CyberAgent

AmazonAdbot(Amazon広告)

bidswitchbot おそらくbidswitch.com

proximic(www.comscore.com/Web-Crawler)

CriteoBot

GrapeshotCrawler(オラクル)

IAS Crawler 広告主、広告代理店向け

MicroAdBot

Spideraf-Bot

TTD-Content

ias-au メディア品質

ias-sg・ias-ie・ias-jp

 

SEO系ボット

AhrefsBot

MJ12bot

semrush

 

serpstatbot

https://serpstatbot.com/

引用

当社はマーケティング キャンペーンの計画と監視のために、市場最大級のバックリンク データベースへのアクセスをユーザーに提供しています。

 

検索系ボット

Applbot Apple検索

Amazonbot Alexaなどアマゾン用

Baiduspider 中国の検索エンジン

Bytespider 中国の検索エンジン バイドゥ

coccocbot-web ベトナムの検索エンジン

Mail.RU_Bot ロシアの検索エンジン

Mail.Ru ロシアの検索エンジン

SezamBot チェコの検索エンジン

Sogou web Spider 中国の検索エンジン

Sogou inst Spider 中国の検索エンジン

PetalBot ファーウェイの検索エンジン(AI検索含む)

Y!J-WSC ヤフー検索

Yandex ロシアの検索エンジン

YandexBot ロシアの検索エンジン

360Spider 中国の検索エンジン

360Spider-Image 中国の検索エンジン

360Spider-Video 中国の検索エンジン

ZoominfoBot Zoomの検索エンジン

 

生成AI系ボット

ChatGPT-User

GPTBot

別記事で詳しく

 

 

アーカイブ系ボット、収集系ボット

CCBot

Cincraw Body部収集

ia_archiver

 

 

調査系ボット

リンク調査ボット

記事内のリンクを調査するサイト

BLEXBot・ドイツ・市場調査系

BLEXBot公式サイト 英語

 

DataForSeoBot バックリンク

DotBot SEO系のmoz

SEOkicksの公式 ドイツ

 

 

インデックス作成ボット

PiplBot

https://pipl.com/bot

 

 

SNSの内容からその記事を調査

Facebot Twitterbot

Twitterbot/1.0 公式

 

サイバー犯罪調査系ボット

NetcraftSurveyAgent

 

その他の調査系

MixrankBot / mixrank.com

https://mixrank.com/

 

Censysinspect ミシガン・研究

公式と思われるサイト(英語)

 

icc-Crawler

国立研究開発法人 情報通信研究機構の研究用

 

WellKnownBot

.WellKnownフォルダ、ads.txtなどを調査、分析

公式

 

DuckDuckGo-Favicons-Bot アイコン調査・検索エンジン「duckduckgo.com」

 

YaK ビジネス系、市場調査?

YaKの公式

 

Webクローリングサービスである Webz.io を強化

https://webz.io/blog/web-data/what-is-the-omgili-bot-and-why-is-it-crawling-your-website/

omgilibot

omgili

 

対象サイト

ニュースサイト
ブログ
レビュー
eコマース
メッセージボードとオンラインディスカッション

 

クローラー元の説明(引用文)

・何千人もの関連性の高い訪問者をWebプロパティに誘導できる可能性

・サイトに広告を掲載している場合、これらのサービスによって注目され、リンクされることで、広告主への魅力が高まり、サイトが生み出す収益を高める可能性

 

ユーザーエージェントが Anthill

2025/1/2 追加

Anthillユーザー エージェントは、ドイツのマンハイム大学の研究プロジェクトに関連付けられ、エージェントベースのアプリケーションを開発するためのフレームワークの一部、という意見もありましたが確証は無い。

下記は以前に推定。ただし確証なし

https://www.anthill.co/terms-of-use

https://www.anthillagency.com/

 

 

その他

不明

wpbot/1.1

問い合わせ先

https://forms.gle/ajBaxygz9jSR8p8G9

 

Slack-ImgProxy APIか?

Slack-ImgProxyの公式サイト

 

 

関連記事

偽装されたユーザーエージェント

.htaccessとrobots.txt の最低限のポイント

 






関連記事
検索順位が下がったアクセス数が減った時の体験談

中国、北朝鮮、ロシア、ベラルーシからのアクセスをブロック

中国からの不正アクセス

エラーログ「client denied by server configuration」と不正アクセスへの対処

レンタルサーバーでのエラー例