[SEO]robots.txtの基本の基礎


robots.txtとは?

Webサイトを運営している方なら、知っておきたい事柄に robots.txt があります。

「robots.txt とは検索エンジン(GoogleやBing)のクローラ(Googlebotやbingbot)が、自分のWebサイトを巡回(クロール)した時に、こちらの要望を伝えるための制御ファイル」です。

ただし設定を間違えると、巡回をしてくれなくなったりするので、設定は間違えないように注意しないといけません。

また「よくわからない場合は、設定不要」です(詳細は後述、引用文A)。

 

この記事は robots.txt に関する注意点を複数の参考記事からまとめました。

 

・UTF-8コードで保存する。冒頭にBOM(バイトオーダーマーク)があっても無視されます。

・一行につき一つの命令(ディレクティブ)が可能。

・上から下に処理される。

・一番上のディレクトリであるルートディレクトリを基準としたURLを相対パスで記述。

例 directory1 をクロール(巡回)して欲しくない場合

〇 Disallow: /directory1/

× Disallow: http://example.com/directory1/

(相対パスではなく完全なURLなので無効)

・一番上のディレクトリであるルートディレクトリに配置。サブディレクトリでは無効

例 ドメインが example.com の時に配置した

http://example.com/robots.txt

結果

〇有効 http://example.com/

〇有効 http://example.com/folder/file

× http://other.example.com/

理由:otherというサブドメインなので、別物とし判断される

× https://example.com/

理由:httpではなくhttpsだから(プロトコルが違う)

× http://example.com/folder/robots.txt

理由:サブディレクトリにある robots.txt はクローラが確認しない

 

・コメント(注釈)には # を使う

# コメント行です

 

・サイトマップファイルの指定が可能で、指定する場合は完全なURL(完全修飾URL)で記述する。不要な場合は省略可能。

Sitemap: http://www.example.com/sitemap.xml

※完全修飾URLとは、そのURLだけでページを見ることができる記述のことです。 その逆は相対パスといい、例でいえば「http://www.example.com」がない  /sitemap.xml だけの記述が相対パスです。

 

Googleからの引用文A(引用元

Q.ウェブサイトに robots.txt ファイルは必要ですか?

A.いいえ。Googlebot がウェブサイトにアクセスする際、まず robots.txt ファイルの取得を試みることによって、クロールの許可を求めます。robots.txt ファイルのないウェブサイトでは、通常、robots メタタグまたは X-Robots-Tag HTTP ヘッダーがクロールされ、問題なくインデックスに登録されます。

 

・robots.txt はクローラ(Googlebotやbingbot)のブロックであって、閲覧のブロックではありません。

非公開ファイルやフォルダが「GoolgeやBingの検索結果」に掲載されないようにするだけで、他人に見られないようにするわけではありません。他人に非公開にするにはログイン方式が確実ですし、robots.txt そのものは誰にでも見られてしまいます。

引用文B(robots.txtファイルを作成するページの下方、ディレクトリとそのコンテンツのクロールを禁止する)より

非公開コンテンツへのアクセスをブロックする場合は、robots.txt を使用するのではなく、適切な認証方法を使用してください。robots.txt ファイルでブロックしている URL であっても、クロールされないままインデックスに登録されることがあります。また、robots.txt ファイルは誰でも見ることができるため、非公開コンテンツの場所を知られてしまう可能性があります。

 

Q.特定のフォルダよりも特定のページが「検索結果に載って欲しくない」場合は?

A.その特定のページに robots メタタグを使うべきです(詳細)ただし、検索結果に載らないだけで、他人に見られないわけではありません。

 

Q,robots.txt を間違えないように記述するには?

A.Google の robots.txt テスターが便利です。(Googleのアカウントが必須です)

テスターへのリンクがあるページ

 


参考文献

Google Search Console ヘルプ「robots.txtについて

Google検索デベロッパーガイド


補足

.htaccessファイルとは?

用途など

・Apache(アパッチ)サーバーのみ使用可能

・初期表示をどのページにするか(用途 index.htmlまたはそれ以外)

・他人に対し、特定のページやディレクトリ(フォルダ)を見せないようにする

・移転元から移転先へ表示を切り替える(自動転送)

など

 

必要性

必要がなければ設置する必要はありません。

 

デメリット

設定を間違えると、自分のサイトが閲覧できなくなります。詳しくない方は設定しない、変更しないことを強くオススメします。

 

サンプル

# コメント行
<IfModule mod_rewrite.c>
RewriteEngine on
RewriteRule ^(.*)$ /$1 [R=301,L]
</IfModule>

 

参考になるサイト様

https://viral-community.com/seo/301-redirect-2992/

http://www.webdesignleaves.com/pr/html/htaccess.html

https://ssl.sakura.ad.jp/column/always-on-ssl2/

 




トップページへ