Webロボット/Webクローラー/Webスパイダーについてのメモ

※個人的メモです

 

webロボット、robots.txtに関する公式サイト

http://www.robotstxt.org/ 英語

 

Webロボットに関するデータベース

http://www.robotstxt.org/db.html 英語

 

Goolge提供 robots.txtの概要

https://developers.google.com/search/docs/advanced/robots/intro?hl=ja

 

 

Microsoft社製ボットについて 英語

ロボット名:概要

Bingbot:検索エンジン系標準クローラー

AdIdxBot:Bing広告用クローラー

BingPreview:ページのスナップショット用クローラー

 

 

検索エンジン系ボット

Yahooクローラー

Y!J-BRW

公式

LINE クローラー

Linespider

公式

 

 

YandexBot・ロシアについて

公式サイト 英語

許可・不許可

MJ12bot・イギリスについて

公式サイト 英語

 

Baiduspider・百度(バイドゥ)・中国について

robots_百度百科 (baidu.com)

 

Sogou web spider・中国について

ヘルプセンター (sogou.com)

 

Yeti・韓国について

네이버 고객센터 (naver.com)

 

Daum・韓国について

許可 ・ 不許可

 

 

商用クローラー

 

AhrefsBot・シンガポール

http://ahrefs.com/robot/

リンク先には、Ahrefs社が作成したボット一覧(検索エンジン系ボット、商用クローラー、フィード取得、監視ボット)あり。また同社のボットは「Googlebotの次にアクティブなボット」とのこと。

抜粋

検索エンジン系ボット
GOOGLEBOT 3.87%
YANDEX BOT 0.85%
MSN/BINGBOT 0.64%
YAHOO SLURP BOT 0.27%
MJ12 BOT 0.26%
BAIDU SPIDER 0.23%
MAIL RU BOT 0.11%
HAOSOU 360 SPIDER 0.1%
SOGOU SPIDER 0.09%
GOOGLE ADS BOT 0.08%

商用クローラー
AHREFSBOT 0.99%
PROXIMIC BOT 0.24%
SEMRUSHBOT 0.23%
DOTMIC DOTBOT 0.08%
PINTEREST BOT 0.08%
YISOUSPIDER 0.06%
XOVIBOT 0.06%
ADMANTX BOT 0.06%
GRAPESHOT BOT 0.05%
ALEXA BOT 0.04%

フィード取得
FACEBOOK MOBILE APP 4.16%
ANDROID FRAMEWORK BOT 1.99%
CFNETWORK BOT 1.47%
.NET WEBCLIENT 0.81%
FACEBOOK XTERNAL HIT 0.64%
WINDOWS PHONE WEBCLIENT 0.64%
ADOBE AIR 0.24%
GOOGLE FEEDFETCHER 0.2%
TWITTER BOT 0.14%
FEEDBURNER 0.1%

監視ボット
WORDPRESS(PINGBACK) 0.27%
PAESSLER MONITOR 0.09%
UPTIMEBOT 0.06%
SITE24X7 TOOLS 0.05%
KEYNOTE 0.05%

 

 

proximic・comscore

http://www.proximic.com/info/spider.php

 

Pinterest・アメリカについて

Pinterest/0.2など

公式サイト

 

GrapeshotCrawler・オラクル

http://www.grapeshot.co.uk/crawler.php

 

Applebot

Siri や Spotlightなど向け

許可・不許可

http://www.apple.com/go/applebot

 

BLEXBot・ドイツについて

公式サイト 英語

 

 

その他・不明

 

Amazon-Advertising-ad-standards-bot・Amazon系広告

 

DataForSeoBot・SEO系

https://dataforseo.com/dataforseo-bot

TTD-Content・広告系

https://www.thetradedesk.com/general/ttd-content

SurdotlyBot・セキュリティ分析

http://sur.ly/bot.html

DotBot・カナダ

https://opensiteexplorer.org/dotbot

Adsbot・コロンビア

https://seostar.co/robot/

MicroAdBot・詳細不明

https://www.microad.co.jp/

TTD-Content・アメリカなど

https://www.thetradedesk.com/general/ttd-content

Cincraw

http://cincrawdata.net/bot/

ias-ir/3.1

広告系のようですが、セキュリティソフトが「アクセスは危険」と表示するので、リンクなしにしています。アクセスは自己責任でお願いします。

https://www.admantx.com/service-fetcher.html

 

関連記事

.htaccessとrobots.txt の最低限のポイント

 

28

ほかの ドメイン の記事

中国、北朝鮮、韓国からの不正アクセスをブロックしたい方へ

中国からの不正アクセス

エラーログ「client denied by server configuration」と不正アクセスへの対処

レンタルサーバーでのエラー例

Amazon Technologies Inc.からのトラフィックをブロックするには?

Ads Blocker Image Powered by Code Help Pro

誤表示の場合はおゆるし下さい。[更新]をタップして下さい。

この記事のQRコード
このサイトのQRコード