Google    ビジネスサポートプランニング: robots.txt ファイルを使用してクロールを管理する方法 robots.txt の限界を理解する Google+

東大阪在住。印刷系・通販系が得意です。半年で取得するPマーク導入支援、SNS・懸賞サイトを使った、ローコストSEO対策・コンバージョンアップ、会社を変えるISO9001、効果的なSPツール・プレミアムグッズ・景品等の解説をブログでおこなっています。 現在はお仕事の依頼を受け付けておりません。

analytics

このブログを検索

2015年1月9日金曜日

robots.txt ファイルを使用してクロールを管理する方法 robots.txt の限界を理解する

robots.txt を作成する前に、リスクの確認をおこなう必要があります。
他の方法で URL がウェブで見つからないようにする方法を検討する必要が発生する場合もあります。


非公開情報が安全であることを確認する
robots.txt ファイル内のコマンドは、どのクローラも従うとは限りません。
あくまでガイドラインです。
Googlebot などの信頼できるウェブクローラは robots.txt ファイルの指示に従います。
しかし他のクローラも従うとは限りません。
そのため、robots.txt で情報をブロックしても共有される可能性があります。
非公開情報のセキュリティを維持するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用した方が確実で安全です。


クローラごとに適切な構文を使用する

信頼できるクローラは robots.txt ファイルのディレクティブに従います。
クローラによってはファイルのディレクティブを別の意味に解釈する可能性があります。
全てに対応するには、各種ロボットに対応する適切な構文を知る必要があります。
ロボットによって、指示を理解しない可能性があります。
robots.txt だけで全てに対応するわけではありません。


他のサイトにある自サイトの URL についてもクローラをブロックする

Google クローラが robots.txt でブロックしているコンテンツをクロールやインデックス登録する事はありません。
しかし、サイトで直接許可をされていない URLも、他のサイトで情報を検出してインデックスに登録する可能性があります。
その結果、URL アドレス、アンカー テキスト、テキスト等。他の公開情報がGoogle検索結果に表示される場合があります。
サーバー上のファイルをパスワード保護、 メタタグを挿入するなど、他の方法を併用すると、URL が確実に検索結果に表示されません。

0 件のコメント:

コメントを投稿

バイナリーオプション BinaryFX

人気の投稿