ビジネスサポートプランニング: ウェブマスターツール　ROBOTS.TXT を使用して URL をブロックする

2014年12月7日日曜日

ウェブマスターツール　ROBOTS.TXT を使用して URL をブロックする

robots.txtファイルは、サイト内の特定のページが Googlebot などのウェブクローラソフトウェアにクロールされないようにするテキストファイルです。
このファイルは基本的には Allow や Disallow 等のコマンドで、コマンドでウェブクローラに URL の取得の可否を指示します。
robots.txt で許可されていない URL とそこにあるコンテンツは Google 検索の検索結果に表示されません。

robots.txt ファイルが必要な場合。
サイトに Google などの検索エンジンのインデックスに登録したくないコンテンツがある。
サイト全体が Google のインデックスに登録されるようにする場合は、robots.txt ファイルは作成しません。
サイトの中で Google のクローラがアクセスできるようになっている URL とアクセスできないようになっている URL を確認するには、robots.txt テスターで試す事が出来ます。

robots.txt の限界を理解する
robots.txt を作成する前に、URL をブロックする手段として robots.txt だけを使用した場合のリスクを理解しましょう。
robots.txtには限界がある為、他の方法を検討することが必要になる場合もあります。

非公開情報が安全であることを確認する
robots.txt ファイル内のコマンドは、どのクローラも従わなければならない規則ではありません。
あくまでガイドラインです。
Googlebot などのウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。
そのため、robots.txtで情報をブロックしても共有されてしまう可能性があります。
非公開情報のセキュリティを維持するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用します。

クローラごとに適切な構文を使用する
信頼できるウェブクローラは robots.txt ファイルのディレクティブに従います。
しかしウェブクローラによってはファイルのディレクティブを別の意味に解釈する可能性があります。各種のロボットに対応するには、適切な構文を知る必要があります。
ロボットによっては、一部の指示を理解しない可能性があります。

他のサイトにある自サイトの URL についてもクローラをブロックする
Google のクローラが robots.txt でブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありません。
しかし、許可されていない URL についての情報をウェブ上の他の場所で検出してインデックスに登録する可能性があります。
その結果、URL アドレスや、場合によっては、サイトに対するリンクのアンカーテキスト等の公開情報が、Google 検索の検索結果に表示される可能性があります。
robots.txt と併せて、サーバー上のファイルをパスワードで保護する方法や HTML にメタタグを挿入する方法など複数使用することで、URL が確実に検索結果に表示されないようにすることができます。

ビジネスサポートプランニング

analytics

このブログを検索

2014年12月7日日曜日

ウェブマスターツール　ROBOTS.TXT を使用して URL をブロックする

0 件のコメント:

コメントを投稿

人気の投稿

ビジネス生活に役立つリンク

帝国データバンク大型倒産速報

企業ニュース・大型倒産速報　東経ニュース

東京商工リサーチ TSR速報 RSS

JC-NET（ジェイシーネット）

ビジネスサポートプランニング

analytics

このブログを検索

2014年12月7日日曜日

ウェブマスターツール ROBOTS.TXT を使用して URL をブロックする

0 件のコメント:

コメントを投稿

人気の投稿

ビジネス生活に役立つリンク

帝国データバンク 大型倒産速報

企業ニュース・大型倒産速報 東経ニュース

東京商工リサーチ TSR速報 RSS

JC-NET（ジェイシーネット）

ウェブマスターツール　ROBOTS.TXT を使用して URL をブロックする

帝国データバンク大型倒産速報

企業ニュース・大型倒産速報　東経ニュース