Google ニュースのクロールは、ウェブ検索と同じGooglebotでおこなわれています。
Google 検索と Google ニュースは、Googlebot と Googlebot-News の異なる 2 つのロボットを使用しています。
これらのロボットをメタ タグとして使用するかロボット エントリ内で使用して、コンテンツを表示する場所を管理できます。
つまり、
- Googlebot-Newsをブロックすると、Google ニュースにコンテンツが掲載されません。
- Googlebot をブロックすると、Google ニュースとウェブ検索のどちらにもコンテンツが掲載されません。
robots.txt ファイルの作成
robots.txt ファイルで、Google 検索と Google ニュースにサイト内のどの部分を掲載するかを詳細に管理できます。
robots.txt ファイルの作成と維持に関する総合的なガイドは、ウェブマスターツール ROBOTS.TXT を使用して URL をブロックするの記事を参考にしてください。
注意サイト内の特定セクションをクロール対象外に指定するには、クローラが robots.txt ファイルにアクセスできる状態にしておきます。
- Google ニュースにサイトが掲載されないようにするには、robots.txt ファイルを使用して Googlebot-News によるアクセスをブロックします。
- Google ニュースと Google 検索にサイトが掲載されないようにするには、robots.txt ファイルを使用して Googlebot によるアクセスをブロックします。
メタタグの作成
サイトの特定の領域へのクローラのアクセスをブロックするには、robots.txt ファイルを使用する方法の他に、HTML ページにメタタグを追加して、特定のページをクロールしないようロボットに指示することができます。
この方法は、メタタグを使用して検索インデックス登録をブロックするを参照してください。
注意
- サイト内の特定の記事を Google ニュースに掲載しないようにするには、メタタグを使用して Googlebot-News によるアクセスをブロックします。
- サイト内の特定の記事を Google ニュースと Google 検索に掲載しないようにするには、メタタグを使用して Googlebot によるアクセスをブロックします。
- サイト内の特定の記事がどのロボットにもクロールされないようにするには、メタタグを使用してアクセスをブロックします。
- 特定の記事の画像がロボットによりクロールされないようにするには、メタタグを使用してアクセスをブロックします。
- 記事が期限付きであり、その期限を過ぎたら Google インデックスから記事を削除するよう指定するには、タグを使用します。
日付と時刻は RFC 850 形式で指定します。
この情報は削除リクエストとして処理されます。
該当ページが検索結果に表示されなくなるのは、インデックスから削除後約 1 日後です。
ただし、タグを正常に機能させるには、記事が最初にクロールされる時点でタグが記事に追加されている状況であることが絶対条件です。
HTTP ヘッダーでの指定を使用する
ロボットへの指示を HTTP ヘッダーの中に記述することもできます。詳しくは、Google Developers の HTTP ヘッダー仕様を参考にしてください。
0 件のコメント:
コメントを投稿