Google    ビジネスサポートプランニング: ウェブマスターツール ROBOTS.TXT を使用して URL をブロックする Google+

東大阪在住。印刷系・通販系が得意です。半年で取得するPマーク導入支援、SNS・懸賞サイトを使った、ローコストSEO対策・コンバージョンアップ、会社を変えるISO9001、効果的なSPツール・プレミアムグッズ・景品等の解説をブログでおこなっています。 現在はお仕事の依頼を受け付けておりません。

analytics

このブログを検索

2014年12月7日日曜日

ウェブマスターツール ROBOTS.TXT を使用して URL をブロックする

robots.txtファイルは、サイト内の特定のページが Googlebot などのウェブクローラ ソフトウェアにクロールされないようにするテキスト ファイルです。
このファイルは基本的には Allow や Disallow 等のコマンドで、コマンドでウェブクローラに URL の取得の可否を指示します。
robots.txt で許可されていない URL とそこにあるコンテンツは Google 検索の検索結果に表示されません。

robots.txt ファイルが必要な場合。
サイトに Google などの検索エンジンのインデックスに登録したくないコンテンツがある。
サイト全体が Google のインデックスに登録されるようにする場合は、robots.txt ファイルは作成しません。
サイトの中で Google のクローラがアクセスできるようになっている URL とアクセスできないようになっている URL を確認するには、robots.txt テスターで試す事が出来ます。


robots.txt の限界を理解する
robots.txt を作成する前に、URL をブロックする手段として robots.txt だけを使用した場合のリスクを理解しましょう。
robots.txtには限界がある為、他の方法を検討することが必要になる場合もあります。



非公開情報が安全であることを確認する
robots.txt ファイル内のコマンドは、どのクローラも従わなければならない規則ではありません。
あくまでガイドラインです。
Googlebot などのウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。
そのため、robots.txtで情報をブロックしても共有されてしまう可能性があります。
非公開情報のセキュリティを維持するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用します。


クローラごとに適切な構文を使用する
信頼できるウェブクローラは robots.txt ファイルのディレクティブに従います。
しかしウェブクローラによってはファイルのディレクティブを別の意味に解釈する可能性があります。各種のロボットに対応するには、適切な構文を知る必要があります。
ロボットによっては、一部の指示を理解しない可能性があります。


他のサイトにある自サイトの URL についてもクローラをブロックする
Google のクローラが robots.txt でブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありません。
しかし、許可されていない URL についての情報をウェブ上の他の場所で検出してインデックスに登録する可能性があります。
その結果、URL アドレスや、場合によっては、サイトに対するリンクのアンカー テキスト等の公開情報が、Google 検索の検索結果に表示される可能性があります。
robots.txt と併せて、サーバー上のファイルをパスワードで保護する方法や HTML にメタタグを挿入する方法など複数使用することで、URL が確実に検索結果に表示されないようにすることができます。

0 件のコメント:

コメントを投稿

バイナリーオプション BinaryFX

人気の投稿