ビジネスサポートプランニング: 12月 2014

2014年12月31日水曜日

パラメータの処理方法について Google に知らせる　URL パラメータページでパラメータを分類する

URL パラメータツールを使用して、サイトで使用しているパラメータの目的を Google に伝達できます。
たとえば、海外発送対応のＥＣサイトを運営している場合、特定の国の顧客のみを対象としたページを識別するために country パラメータを使用中であることを Google に伝えるケースがあります。

パラメータの入った URL を Google がクロールする場合に備えて、各種設定を指定できます。
設定により、指定した URL をクロールするように指示したり、サイト内の重複コンテンツをクロールしないように指示したりできます。

URL パラメータは次の 2 つのカテゴリがあります。

アクティブ URL パラメータ：ページのコンテンツを変えることができるパラメータ。
パッシブ URL パラメータ：ユーザーに対するコンテンツ表示に影響しないパラメータ。

2014年12月30日火曜日

クローラが本当に Googlebot かを確認する方法

サーバーにアクセスしているボットが、本当に Googlebotかを確認できます。
DNS リバースルックアップを使用して googlebot.com ドメインに名前があることを確認。
その Googlebot の名前を使用して DNS フォワードルックアップをします。
スパム発信者が Googlebot と偽ってサイトにアクセスする場合に有効です。

たとえば次のように記述します。

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer
crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Google では、ウェブマスター向けホワイトリストの IP アドレスの公開リストを掲載していません。
これは IP アドレス範囲が変更する可能性がある為です。
アドレスを直接入力したウェブマスターにとって問題が生じるからです。
Googlebot のアクセスを確認する最も確実な方法は、Googlebot を使用することです。

2014年12月29日月曜日

サーバー接続エラーの対処方法　検索エンジンによるサイトのクロールとインデックス登録を適切に管理する

検索エンジンによるサイトのクロールとインデックス登録を適切に管理する
ファイアウォールを使用していて、意図的に Googlebot がウェブサイトにアクセスできないようにすることもあります。
この場合、意図しているのは、Googlebot を全面的にブロックすることではなく、サイトのクロールとインデックス登録を管理する事にあります。
この場合は、次の2点を確認します

Googlebot のクロールを管理する方法は、ロボット排除プロトコルを使います。具体的には、robots.txt ファイルを使用する方法、 URL パラメータを設定する方法があります。プロトコル排除の方法⇒　https://developers.google.com/webmasters/control-crawl-index/docs/getting_started?csw=1　robots.txtを使う方法⇒　https://support.google.com/webmasters/answer/6062608?rd=1　
ユーザーエージェントを Googlebot と偽った悪質なボットの疑いがある場合は、クローラが本当に Googlebot かを確認します。

サイトに対するクロール頻度を変更したい時は、Googlebot クロール速度の変更をグーグルにリクエストします。
ホスティングプロバイダは、IP アドレスの所有権も確認できます。

2014年12月28日日曜日

サーバー接続エラーの対処方法　誤って Google のクローラがブロックされていないことを確認する

誤って Google のクローラがブロックされていないことを確認する
DNS 設定の問題、ファイアウォール、DoS 対策保護システムの設定ミス、コンテンツ管理システムの設定等、システムレベルの問題が起因してクローラがブロックされる場合が利ます。
保護システムは優れたホスティングを実現する重要な要素である一方、異例の大量サーバーリクエストを自動的にブロックする設定をしています。

Googlebot からのリクエストは人が手動でおこなうリクエストより多くなる場合が多いため、保護システムが作動し、 Googlebot をブロックし、Googlebot がサイトをクロールで出来ない場合があります。
これを解決する為には、ウェブサイトのどの部分で Googlebot がブロックされているのかを特定し、ブロックを解除する必要があります。
ファイアウォールの設定を変更する場合は、ホスティングプロバイダに連絡を取ることが必要となる場合もあります。

2014年12月27日土曜日

サーバー接続エラーの対処方法　ホスティングサーバーの停止、過負荷、設定ミスが起きていないことを確認する

ホスティングサーバーの停止、過負荷、設定ミスが起きていないことを確認する
動的ページへのリクエストに伴う過剰なページ読み込みを減らしても、接続、タイムアウト、応答の問題が解消されない場合は、ウェブホスティングプロバイダにサーバーの停止、過負荷、設定ミス等が無いかを確認します。
ウェブホスティングプロバイダに問題がない場合は、ウェブホスティングプロバイダに相談して、サイトのトラフィック処理能力の増強を検討する事になります。

2014年12月26日金曜日

サーバー接続エラーの対処方法　動的ページへのリクエストに伴う過剰なページ読み込みを減らす

動的ページへのリクエストに伴う過剰なページ読み込みを減らす
同じコンテンツを複数の URL で配信しているサイトは、コンテンツを動的に配信しているとみなされます（例、www.example.com/shoes.php?color=red&size=7 で www.example.com/shoes.php?size=7&color=red と同じコンテンツを配信する場合など）。
動的ページは応答に時間が掛かり、タイムアウトの原因になる場合が多くあります。
又、サーバーから過負荷ステータスが返され、クロール速度を落とすよう求める場合があります。
原則として、パラメータは短くすることと、使いすぎないことです。
サイトでのパラメータの動作を十分に把握している場合は、パラメータ処理方法を Google に通知できます。

2014年12月25日木曜日

サーバー接続エラー　タイムアウト

サーバーは、リクエスト待機中にタイムアウトしました。

Fetch as Google を実行すると、Googlebot がサイトにクロール可能かを調べることができます。Fetch as Google を実行して、ホームページのコンテンツが問題なく応答する場合、サイトは正常にアクセス可能です。

タイムアウトの状態が続く場合、サーバーが過負荷状態か、設定が間違っている可能性があります。
しばらく時間をおいてから、再実行するか、設定を見直します。
解決しない場合は、ホスティングプロバイダに問い合わせます。
プロバイダ側で問題が起きている可能性があります。

2014年12月24日水曜日

サーバー接続エラー　ヘッダーが途切れました

Google はサーバーに接続できたが、ヘッダーが完全に送信される前に、サーバーが接続を切断した状態です。

Fetch as Google を実行すると、Googlebot がサイトにクロール可能かを調べることができます。
Fetch as Google を実行して、ホームページのコンテンツが問題なく応答する場合、サイトは基本的にアクセス可能です。

ヘッダーが途切れた状態の場合、サーバーが過負荷状態か、設定が間違っている可能性があります。
しばらく時間をおいて再実行するか、設定を見直します。
問題が解決しない場合は、ホスティングプロバイダに問い合わせします。
プロバイダで問題が起きている場合があります。

2014年12月23日火曜日

サーバー接続エラー　接続がリセットされました

サーバーは Google のリクエストを正常に処理しましたが、サーバーとの接続がリセットされたため、コンテンツが応答していません。

Fetch as Google を実行すると、Googlebot がサイトにクロール可能かを調べることができます。
Fetch as Google を実行して、ホームページのコンテンツが問題なく応答する場合、サイトは正常にアクセス可能です。

接続がリセットされました状態が続く場合、サーバーが過負荷状態か、設定が間違っている可能性があります。
時間をおいてから再実行するか、設定を見直します。
解決しない場合は、ホスティングプロバイダに問い合わせます。
プロバイダで問題が起きている場合があります。

2014年12月22日月曜日

サーバー接続エラー　応答が途切れました

Google が応答を完全に受信する前に、サーバーが接続を切断したため、応答の一部しか受信出来ない状態です。

Fetch as Google を実行すると、Googlebot がサイトにクロール可能か調べることができます。
Fetch as Google を実行して、ホームページのコンテンツが応答する場合、サイトは正常にアクセス可能が可能です。

応答が途切れました状態の場合、サーバーが過負荷状態か、設定が間違っている可能性があります。
時間を置いて再接続するか、設定を見直します。
それでも問題が解決しない場合は、ホスティングプロバイダに問い合わせます。
プロバイダで問題が起きている場合があります。

2014年12月21日日曜日

サーバー接続エラー　接続が拒否されました

サーバーが接続を拒否したため、Google がサイトにアクセスで無い状態です。
ホスティングプロバイダが Googlebot をブロックしているか、ファイアウォールの設定に問題があります。

Fetch as Google を実行すると、Googlebot がサイトにクロール可能かを調べることができます。Fetch as Google を実行して、コンテンツが問題なく応答する場合、Google が正常にアクセスする事が出来ます。

接続が拒否された状態が続く場合は、サーバーが過負荷状態か、設定が間違っている可能性があります。
しばらく時間をおいて再度 Fetch as Google を実行するか、設定を見直しても問題が発生する場合は、ホスティングプロバイダに問い合わせます。
プロバイダ側に問題が発生している可能性があります。

2014年12月20日土曜日

サーバー接続エラー　応答がありません

Google がサーバーに接続でたが、サーバーからデータが送信される前に接続が切断された状態。

Fetch as Google を実行すると、Googlebot がサイトにクロール可能か調べることができます。
Fetch as Google を実行して、ホームページのコンテンツが問題なく応答する場合、Google が正常にアクセス可能です。

Fetch as Google を実行して、応答がない場合、サーバーが過負荷状態か、設定が間違っている可能性があります。
時間をおいて再度実行するか、設定を見直します。
それでも解決しない場合は、ホスティングプロバイダに問い合わせます。
プロバイダ側で問題が起きている可能性があります。

2014年12月19日金曜日

サーバー接続エラー　接続に失敗しました

ネットワークにアクセスできないか、ネットワークがダウンしているために、Google がサーバーに接続できない状態です。

サーバーが過負荷状態になっているか、設定が間違っている可能性があります。
時間をおいて再度アクセスしたり、設定を確認しても問題の修正が出来ない場合は、ホスティングプロバイダに問い合わせます。
プロバイダ側で問題が発生している可能性があります。

Fetch as Google を実行すると、現在 Googlebot がサイトにクロール可能かを調べることができます。
Fetch as Google を実行して、ホームページのコンテンツが問題なく応答する場合、サイトは Google から正常にアクセス可能です。

2014年12月18日木曜日

サーバー接続エラー　接続タイムアウト

Google がサーバーに接続できませんでした。

Fetch as Google を使用すると、現在 Googlebot がサイトにクロール可能かどうかを調べることができます。Fetch as Google を実行して、コンテンツが問題なく応答したら、サイトは正常にアクセス可能です。

接続タイムアウトになった場合は、サーバーがインターネットに接続されているか確認します。サーバーが過負荷状態になっているか、設定が間違っている可能性があります。
設定等を確認しても解決しない場合は、ホスティングプロバイダに問い合わせます。
プロバイダ側で問題が起きている可能性があります。

2014年12月17日水曜日

サーバー接続エラー

サーバーの応答に時間がかかり過ぎるか、Google のクロールがブロックされるために Google がサイトにアクセスできない状態です。この場合、Google のクローラはリクエストを中止します。

具体的には次のようなエラーが考えられます。

詳細はリンク先をご覧ください。

2014年12月16日火曜日

サーバーエラー　DNS タイムアウト

DNS サーバーがホスト名（www.example.com など）を認識しなかったため、Google がサイトにアクセスできません。

Fetch as Google を使用すると、 Googlebot がサイトへクロール可能かを調べることができます。
Fetch as Google を実行して、ホームページのコンテンツが問題なく返される場合、サイトは基本的に Google から正常にアクセス可能です。

問題がある場合は、レジストラをチェックして、サイトが正しく設定されているかと、サーバーがインターネットに接続されているかどうかを確認します。

2014年12月15日月曜日

サーバーエラー　DNS ルックアップ

DNS サーバーがホスト名（www.example.com など）を認識しなかったため、Google がサイトにアクセスできません。

Fetch as Google を使用すると、 Googlebot がサイトへクロール可能かどうかを調べることができます。
Fetch as Google を実行して、ホームページのコンテンツが問題なく返される場合、サイトは基本的に Google から正常にアクセス可能です。

問題がある場合は、レジストラをチェックして、サイトが正しく設定されているかと、サーバーがインターネットに接続されているかどうかを確認します。

2014年12月14日日曜日

DNS エラーの対処方法

Google クローラがサイトをクロールできるようにする

トップページなどの重要なページについて Fetch as Google を使います。トップページの内容が問題なく返る場合は、Google がサイトに問題なくアクセスできています。
DNS エラーが継続する、または繰り返し発生する場合は、ＤＮＳプロバイダ側に問題が発生している可能性がある為、DNS プロバイダに確認をします。多くの場合、DNS サービスとウェブホスティングサービスは同じです。
存在しないホスト名に対して 404 や 500 などの HTTP エラーコードを返すようにサーバーを設定する。たとえば、example.com というウェブサイトであれば、ワイルドカード DNS セットアップで、a.example.com、b.example.com などのサブドメインに対するリクエストに応答するように設定します。この方法は、サイトでコンテンツを作成したユーザーに独自のドメイン（http://username.example.com）を付与している場合に有効です。ただし、この設定をする事により、コンテンツが複数のホスト名に不必要に複製される可能性もあり、クロールに影響が及ぶ場合があるので注意が必要です。

2014年12月13日土曜日

DNS エラー

URL についてこのエラーが表示された場合、Googlebot が DNS サーバーと通信できないか、サーバーにサイトのエントリがないことになります。

ＤＮＳサーバーと通信出来ない場合は、サーバーが停止しているか、サイトドメインへの DNS ルーティングに支障があるために Googlebot が DNS サーバーと通信できない状態です。

具体的に次のエラーがあります。

ほとんどの場合は、DNS の警告やエラーが表示されても Googlebot がサイトにアクセスできないわけではなく、接続待ち時間が長い可能性があります。
その結果、ユーザーに過度の負担をかけている可能性があります。

2014年12月12日金曜日

ウェブマスターツール　クロールエラー

クロールエラー　の項目では、Google がクロールできなかった URL や、HTTP エラーコードが返された URL の詳細情報を表示しています。
このページはサイトエラーとURL エラーのセクションに分かれます。

サイトエラー
過去 90 日間に Googlebot がサイトにまったくアクセスできなかった原因の主な問題を表示しています。

DNS エラー: サイト名からサイトのファイルをホストしているサーバーの数値アドレスへの変換を行うドメイン名システム（DNS）のエラー。
サーバーエラー: ホストプロバイダのサーバー機能（接続の信頼性や速度など）のエラー。
robots.txt のエラー: クローラは最初に robots.txt にアクセスします。robots.txt はクローラにアクセスできるページとアクセスできないページを伝えるファイル。

URL エラー

Google が特定のパソコン向け、携帯端末向け、Android アプリ向けのページをクロールしようとした場合に検出した具体的なエラーが一覧表示されます。
URL エラーレポートはGoogle botがページへアクセスした際に固有のエラーが表示されます。

パソコン：Googlebot がアクセスしたパソコン向けページ。
スマートフォン：スマートフォン向けGooglebot がアクセスしたスマートフォン向けページ。
フィーチャーフォン：フィーチャーフォン向け Googlebot-Mobile がアクセスしたフィーチャーフォン向けページ。
Android アプリ：サイトのページとのディープリンクを検出するためにクロールした Android アプリの URI。

2014年12月11日木曜日

Google 削除ポリシー

Googleでは、世界中の情報の体系化を目指しています。
しかし、ウェブコンテンツには取り扱いが難しいもの、すべてのユーザーに表示するには適切ではないものがあります。
Google がウェブ、画像、動画の各検索結果から削除する各種コンテンツに関するポリシーです。

金融機関または政府が発行した識別番号

機密性の高い個人情報が公開された場合、身元詐称や金融詐欺など多大な危害がユーザーに及ぶ可能性があります。
ユーザーの安全性を維持し、ユーザーへの危害を避けるために必要であるとGoogleが判断した場合、検索結果から個人情報を削除します。

削除対象となる可能性のある情報

国が発行する識別番号（住基カード、住基番号、保険証など）
銀行口座番号
クレジットカード番号
署名の画像

一般に削除対象とならない情報

生年月日
住所
電話番号

個人情報の削除基準

政府が発行した識別番号か？
秘密情報か、それとも公的に入手可能な情報か？
一般的な金融取引に利用できるか？
個人情報をさらに入手するのに利用できるか（その結果、金銭的な被害や身元詐称が発生するか）？

Google は、削除ポリシーを柔軟に適用しています。
この為ポリシーを悪用して、個人情報に該当しない他の情報を検索結果から削除しようとしていると考えられる場合、削除リクエストを却下されます。

例えば、政府の公式なウェブサイトに掲載されている情報は、削除の対象となりません。
これらは公的であるからです。

個人情報の削除をリクエストする
Google 検索結果からの個人情報の削除を依頼する場合は、Google からの情報の削除ページ
法的な理由で削除したい情報がある場合は、法的な削除ページ

これらのページから、Googleに申し立てをおこなう事が出来ます。

不適切な画像
画像や動画に次の情報が含まれている場合、その画像や動画は検索結果から削除されます。

個人情報
児童の性的虐待画像
デジタルミレニアム著作権法の規定を満たす、有効な著作権侵害通知を受けた場合
法的な理由

検索結果から画像や動画のサムネイルを削除する
次のコンテンツが含まれている場合、画像や動画を削除するか、検索結果に画像や動画が表示されない場合があります。

ポルノ（複数の意味を持つ検索キーワードや、それ自体は不適切でなくても、不適切な結果が表示される可能性のあるキーワードも処理対象となる）
身体の機能や体液
卑猥な言葉
生々しいコンテンツ（けがや病状、死や人間の体の一部を描写したものなど）
動物への虐待や暴力

セーフサーチフィルタで不適切なコンテンツを除外する
Google アカウントでセーフサーチをオンにすると、主にポルノ画像が除外されます。

セーフサーチの除外対象。

正面からのヌード
セックスや性的行為
生殖器や生々しいセックスに焦点を当てた、芸術的な画像や動画

次のような画像や動画はセーフサーチで除外されません:

医療、科学、または教育に関わるヌード。たとえば、授乳の画像など。
裸または露出度の高い臀部に焦点を当てたもの。
生殖器に焦点を当てていないコンテンツ。カーマスートラの描写など。
性的な嗜好やテーマを描写したコンテンツのうち、ヌードを含まないもの。ボンデージファッションに身を包んだポップスターなど。

暴力的なコンテンツ
セーフサーチは、暴力的なコンテンツを自動的除外していません。
Googleは臨機応変に手動で対応しているのが現状です。

2014年12月10日水曜日

写真、プロフィール等、自分に関する情報が含まれたウェブページなどをGoogle の検索結果から削除したい場合

写真、プロフィールへのリンク、自分に関する情報等が含まれたページを、Google の検索結果から削除したい場合があります。
通常は、情報が含まれているウェブサイトの所有者に連絡して、情報を削除するように依頼する必要があります。
ウェブサイトの所有者の事をウェブマスターと言います。

機密性の高い個人情報（銀行口座番号や手書きの署名の画像など）を検索結果から削除する必要がある場合は、Google に削除依頼が出来ます。

Google 側で削除できる情報は、Google の削除ポリシーに記載されています。

ウェブマスターに連絡する理由
Google が問題のサイトや画像を検索結果から削除しても、元のウェブページが消えることはありません。
この為サイトの URL を入力するとアクセスでき、ソーシャルメディアで共有が可能で、 Google 以外の検索エンジンには表示されます。
これらの事から、ウェブマスターに連絡して、問題のページを完全に削除する事が最善の方法になります。

2014年12月9日火曜日

ウェブマスターツール　Google 検索結果から画像を削除する

Google等の画像検索から、画像が流用される事が現在多くなってきています。
コンテンツライツを保護するには、コンテンツ保持者がGoogle 検索結果から画像を削除する等の方法を取ることも一つの方法です。

Google 検索結果から画像を削除する為に、覚えておくべき点がいくつかあります。

Google はウェブを所有ｈしていません。そのため、ウェブからコンテンツを削除することはできません。
Google の検索結果に表示される画像を管理しているのは、その画像をホスティングしているサイトのウェブマスターです。

自身が所有しているのではないサイトの画像の削除を希望する場合は、ウェブマスターに連絡して、画像の削除または検索エンジンからのブロックを依頼してください。
ウェブマスターがその画像 URL を自分のサイトから削除するか、Google のインデックスに登録されないようブロックすると、その変更は次回のクロール後に Google の検索結果に自動的に反映されます。
この処理がすぐに行われるようにするには、URL 削除ツールを使用します。
URL 削除ツールを使用するには、削除したい画像の正確な URL を知っておく必要があります。

正確な URL を知る方法
画像検索結果で画像をクリックします。
【画像を最大化】または【最大化】を右クリックし、リンクアドレスをコピーします。
URL をファイルまたはドキュメントに貼り付けます。URL 削除ツールを使用するときは、この URL を使用します。
URL を特定できたら、手順に従ってページ全体の削除をリクエスします。

2014年12月8日月曜日

HTTP ステータスコード

サイトのページへのリクエストがサーバーに送信されると、サーバーはリクエストに対するレスポンスとして HTTP ステータスコードを返します。

一般的なステータスコード

200 - サーバーはページを正常に返しました
404 - リクエストされたページは存在しません
503 - 一時的な問題により、サーバーにアクセスできません

1xx（一時的な応答）
一時的な応答を示すステータスコードです。リクエスト送信者は処理を続行する必要があります。
コード説明
100（続行）リクエストを続行してください。サーバーは、リクエストの最初の部分を受信し、残りの部分を待っていることを示すためにこのコードを返します。
101（プロトコル切り替え）サーバーはプロトコル切り替えのリクエストを受信し、承認しました。

2xx（成功）
サーバーがリクエストを正しく処理したことを示すステータスコードです。
コード説明
200（成功）：サーバーはリクエストを正しく処理しました。通常、リクエストされたページがサーバーから返されたことを示します。robots.txt ファイルのステータスがこのステータスの場合、Googlebot が正常にファイルの情報を取得したことを示します。
201（作成されました）：リクエストは正常に送信され、サーバーは新しいリソースを作成しました。
202（許可）：サーバーはリクエストを受理しましたが、まだ処理は行われていません。
203（信頼性のない情報）：サーバーはリクエストを正しく処理しましたが、他のソースから取得した可能性のある情報を返しました。
204（コンテンツがありません）：サーバーはリクエストを正しく処理しましたが、返されたコンテンツはありません。
205（コンテンツのリセット）：サーバーはリクエストを正しく処理しましたが、返されたコンテンツはありません。204 レスポンスとは異なり、このレスポンスは、新規入力用に入力フォームをクリアするなど、リクエスト送信者がドキュメントビューをリセットする必要があります。
206（部分的なコンテンツ）：サーバーは GET リクエストの一部を正しく処理しました。

3xx（リダイレクト）
リクエストを実行するには、さらに操作を行う必要があります。多くの場合、このステータスコードはリダイレクトに使用されます。リクエストあたりのリダイレクト数は 5 未満にすることをおすすめします。ウェブマスターツールを使用して、リダイレクトされたページに対する Googlebot のクロールに問題があるかどうかを確認できます。【クロール】の【クロールエラー】ページには、リダイレクトエラーが原因で Googlebot がクロールできなかった URL が表示されます。
コード説明
300（複数の選択肢）：リクエストに対して選択可能な複数のサーバー操作があります。サーバーは、リクエスト送信者（ユーザーエージェント）に応じて操作を選択します。また、リクエスト送信者が操作を選択できるよう、サーバーでリストが提示される場合もあります。
301（恒久的に移動）：リクエストされたページは、別の場所に恒久的に移動済みです。サーバーが GET リクエストや HEAD リクエストに対してこのレスポンスを返すと、リクエスト送信者は新しい場所に自動的に転送されます。Googlebot にページやサイトが新しい場所に完全に移動したことを通知するときに、このコードを使用します。
302（一時的に移動しています）：現在、サーバーは別の場所にあるページを使用してリクエストに応答しています。しかし、今後のリクエストでは、リクエスト送信者は引き続き元の場所を使用する必要があります。このコードは GET または HEAD リクエストに対する 301 コードと同じように、リクエスト送信者を別の場所に自動的に転送しますが、Googlebot は引き続き元の場所をクロールしてインデックスに登録するため、このコードを使用して Googlebot にページやサイトが移動したことを指示することはできません。
303（他の場所を参照）：リクエスト送信者が別の場所に対する GET リクエストを別個に作成してレスポンスを取得する必要がある場合、サーバーはこのコードを返します。HEAD リクエスト以外のすべてのリクエストについては、サーバーはリクエスト送信者を他の場所へ自動的に転送します。
304（更新されていません）：リクエストされたページは、前回のリクエストから変更されていません。サーバーがこのレスポンスを返す場合、ページのコンテンツは返されません。

前回のリクエストからページが変更されていない場合、If-Modified-Since HTTP ヘッダーと呼ばれるこのレスポンスを返すようにサーバーを設定する必要があります。これにより、前回のクロールからページが変更されていないことが Googlebot に通知され、帯域幅や負荷を軽減します。

305（プロキシを使用）：リクエスト送信者は、プロキシを使用した場合のみ、リクエストされたページにアクセスできます。サーバーがこのレスポンスを返す場合、リクエスト送信者が使用する必要のあるプロキシが示されます。
307（一時的なリダイレクト）：現在、サーバーは別の場所にあるページを使用してリクエストに応答しています。しかし、今後のリクエストでは、リクエスト送信者は引き続き元の場所を使用する必要があります。このコードは GET または HEAD リクエストに対する 301 コードと同じように、リクエスト送信者を別の場所に自動的に転送しますが、Googlebot は引き続き元の場所をクロールしてインデックスに登録するため、このコードを使用して Googlebot にページやサイトが移動したことを指示することはできません。

4xx（リクエストエラー）
リクエストにサーバーでの処理を妨げるエラーが存在する可能性を示すステータスコードです。
コード説明
400（不正なリクエスト）：サーバーはリクエストのシンタックスを認識できませんでした。
401（認証されていません）：このリクエストには、認証が必要です。サーバーは、ログインを必要とするページで、このレスポンスを返すことがあります。
403（禁止）：サーバーはリクエストを拒否しました。Googlebot でサイトの有効なページをクロールしようとしたときにこのステータスコードを受け取ると、ウェブマスターツールの【健全性】の【クロールエラー】ページに表示されます。この場合、ご使用のサーバーやホストが Googlebot のアクセスをブロックしている可能性があります。
404（見つかりませんでした）：サーバーは要求されたページを見つけることができません。たとえば、サーバーに存在しないページをリクエストすると、多くの場合、サーバーはこのコードを返します。
※サイトに robots.txt ファイルを設定しておらず、Google ウェブマスターツールの【ブロックされた URL】ページにこのステータスが表示される場合は問題ありません。
robots.txt ファイルを設定していて、このステータスが表示される場合は、robots.txt ファイルの名前が間違っているか、ファイルの場所が間違っている可能性があります。
Googlebot がクロールしようとした URL にこのステータスが表示される場合、Googlebot が別のページから無効なリンク（古いリンクや間違った URL が入力されたリンク）をたどった可能性があります。

405（許可されていないメソッド）：  リクエストで指定されたメソッドは使用できません。
406（許可されません）：  要求されたページは、要求されたコンテンツの特性を返すことができません。
407（プロキシ認証が必要です）：  このコードは 401（認証されていません）コードと似ていますが、リクエスト送信者がプロキシを使用して認証を行う必要があることを示します。サーバーがこのレスポンスを返す場合、リクエスト送信者が使用する必要のあるプロキシも示されます。
408（リクエストがタイムアウトしました）：サーバーは、リクエスト待機中にタイムアウトしました。
409（矛盾）：リクエストを実行する際に、サーバーで矛盾が発生しました。サーバーのレスポンスには、矛盾に関する情報が含まれています。サーバーは、以前のリクエストと矛盾する PUT リクエストへのレスポンスで、リクエスト間の相違点のリストとともに、このコードを返すことがあります。
410（存在しません）：リクエストしたリソースが完全に削除されている場合、サーバーはこのレスポンスを返します。このコードは 404（見つかりませんでした）コードと似ていますが、以前は存在し、現在は存在しないリソースについて、404 コードの代わりに使用されることがあります。リソースを完全に移動した場合は、301 コードを使用して、リソースの新しい場所を指定する必要があります。
411（長さが必要です）：サーバーは、有効な Content-Length ヘッダーフィールドのないリクエストを受理しません。
412（前提条件が失敗しました）：サーバーが、リクエスト送信者がリクエストで指定した前提条件のいずれかを満たしていません。
413（リクエストエンティティが大きすぎます）：リクエストが大きすぎるため、サーバーはリクエストを処理できません。
414（リクエスト URI が長すぎます）：リクエストされた URI（通常は URL）が長すぎるため、サーバーは処理できません。
415（サポートされていないメディアタイプ）：リクエストされたページでサポートされていない形式のリクエストです。
416（リクエストされたレンジが無効です）：ページで利用できない範囲にリクエストがある場合、サーバーはこのステータスコードを返します。
417（ヘッダーの処理に失敗しました）：サーバーは、Expect request-header フィールドの条件を満たしていません。

5xx（サーバーエラー）
リクエストの処理を試行した際に、サーバーで内部エラーが発生したことを示すステータスコードです。リクエストではなく、サーバー自体にエラーがあります。
500（内部サーバーエラー）：サーバーでエラーが発生し、リクエストを実行できません。
501（実装されていません）：サーバーにリクエストを実行する機能がありません。たとえば、サーバーでリクエストのメソッドを認識できない場合にこのコードを返すことがあります。
502（不正なゲートウェイ）：サーバーはゲートウェイまたはプロキシとして動作していて、上位のサーバーから無効なレスポンスを受け取りました。
503（サービスはご利用いただけません）：現在、サーバーは過負荷状態やメンテナンスによる停止のため利用できません。通常、この状態は一時的なものです。
504（ゲートウェイのタイムアウト）：サーバーはゲートウェイまたはプロキシとして動作しており、上位のサーバーから時間内にリクエストを受け取れませんでした。
505（HTTP バージョンはサポートされていません）：リクエストで使用された HTTP プロトコルバージョンがサーバーでサポートされていません。

2014年12月7日日曜日

ウェブマスターツール　ROBOTS.TXT を使用して URL をブロックする

robots.txtファイルは、サイト内の特定のページが Googlebot などのウェブクローラソフトウェアにクロールされないようにするテキストファイルです。
このファイルは基本的には Allow や Disallow 等のコマンドで、コマンドでウェブクローラに URL の取得の可否を指示します。
robots.txt で許可されていない URL とそこにあるコンテンツは Google 検索の検索結果に表示されません。

robots.txt ファイルが必要な場合。
サイトに Google などの検索エンジンのインデックスに登録したくないコンテンツがある。
サイト全体が Google のインデックスに登録されるようにする場合は、robots.txt ファイルは作成しません。
サイトの中で Google のクローラがアクセスできるようになっている URL とアクセスできないようになっている URL を確認するには、robots.txt テスターで試す事が出来ます。

robots.txt の限界を理解する
robots.txt を作成する前に、URL をブロックする手段として robots.txt だけを使用した場合のリスクを理解しましょう。
robots.txtには限界がある為、他の方法を検討することが必要になる場合もあります。

非公開情報が安全であることを確認する
robots.txt ファイル内のコマンドは、どのクローラも従わなければならない規則ではありません。
あくまでガイドラインです。
Googlebot などのウェブクローラは robots.txt ファイルの指示に従いますが、他のクローラも従うとは限りません。
そのため、robots.txtで情報をブロックしても共有されてしまう可能性があります。
非公開情報のセキュリティを維持するには、サーバー上の非公開ファイルをパスワードで保護する方法など、他のブロック方法を利用します。

クローラごとに適切な構文を使用する
信頼できるウェブクローラは robots.txt ファイルのディレクティブに従います。
しかしウェブクローラによってはファイルのディレクティブを別の意味に解釈する可能性があります。各種のロボットに対応するには、適切な構文を知る必要があります。
ロボットによっては、一部の指示を理解しない可能性があります。

他のサイトにある自サイトの URL についてもクローラをブロックする
Google のクローラが robots.txt でブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありません。
しかし、許可されていない URL についての情報をウェブ上の他の場所で検出してインデックスに登録する可能性があります。
その結果、URL アドレスや、場合によっては、サイトに対するリンクのアンカーテキスト等の公開情報が、Google 検索の検索結果に表示される可能性があります。
robots.txt と併せて、サーバー上のファイルをパスワードで保護する方法や HTML にメタタグを挿入する方法など複数使用することで、URL が確実に検索結果に表示されないようにすることができます。

2014年12月6日土曜日

サーバーディレクトリをパスワードで保護して URL をブロックする

Google 検索の検索結果に表示したくない機密情報や非公開のコンテンツがある場合、非公開の URL の表示をブロックする最も簡単で最も効果的な方法は、サイトサーバー上のパスワードで保護されたディレクトリにその URL を保存することです。Googlebot などのとするウェブクローラはすべて、パスワードで保護されたディレクトリ内のコンテンツにアクセスできません。

Apache Web Server を使用している場合は、.htaccess ファイルを編集することで、サーバー上のディレクトリをパスワードで保護できます。ウェブ上には、この操作を簡単に行うためのツールが多数あります。

Apache HTTP Server（アパッチエイチティーティーピーサーバ）は、世界中でもっとも多く使われているWebサーバソフトウェアであり、大規模な商用サイトから自宅サーバまで幅広く利用されている。単にApacheとも称されている。
開発は、Apacheソフトウェア財団のApache HTTPサーバプロジェクトで行われている。Apache Licenseの下でソースコードが公開および配布されており、代表的なオープンソースソフトウェアの一つである(Wikipedia)

2014年12月5日金曜日

ウェブマスターツール　ページの URL を調べる方法

特定のページを削除したり、ページの順位を下げることを Google にリクエストする場合、検索結果に表示されているページの URL を正確に指定する必要があります。
www.example.com/dragon と www.example.com/Dragon のような大文字小文字の違いのある URL は問題ないと考えがちですが、Google では異なる URL として認識しています。
目的のコンテンツを Google から削除したり順位を下げるには、検索結果に表示される URL を正確に入力しなければなりません。
正確な URL を知るためのヒントです。

省略記号
検索結果ページに表示される緑色の文字の URL に省略記号（...）が含まれている場合、通常は表示のためにその URL が短縮されていることを示します。

省略記号が含まれている URL はそのままコピーせず、検索結果のタイトル（上の画像の 1）をクリックします。
ページが開いたら、ブラウザのアドレスバーから URL をコピーします。
別の方法として、検索結果内のリンクを右クリックして URL をコピーできます。
これを URL 削除ツールやサイトリンク順位下げツールに貼り付けると、www.google.com から始まる非常に長い URL が表示されることがありますが、それで正しい URL を特定できます。

大文字の使用
URL 削除ツールやサイトリンク順位下げツールでは、大文字と小文字が区別されます。www.example.com/nunchuckskills と入力しても www.example.com/NunchuckSkills を削除または順位を下げることはできません。
検索結果に表示される URL と同じ大文字/小文字の組み合わせを使用して、URL を入力します。
ページを開いてアドレスバーから URL をコピーすると、正確な URL を入力できます。

複数の URL
フォーラムやスレッドベースのサイトでは、複数の URL で同じコンテンツが表示されることがあります。
例）
http://www.example.com/forum/thread/123
http://www.example.com/forum/post/456
http://www.example.com/forum/thread/123?post=456
http://www.example.com/forum/thread/123?post=456&sessionid=12837460

1 つの URL の削除または順位下げのリクエストが正しく処理されても、コンテンツが別の URL で検索結果に表示される場合があります。
この場合は、コンテンツが表示される URL ごとに削除リクエストを送信します。

削除リクエストのいずれかが「削除されています」とマークされているにもかかわらず、コンテンツが Google の検索結果に表示され続ける場に考えられる場合は大文字/小文字等の違いが原因として考えられます。

2014年12月4日木曜日

ウェブマスターツール　URL の削除の仕方

1 つのページ全体を Google の検索結果から削除する
ウェブマスターツールで、該当するサイトを選択します。

メニューバーにある【Google インデックス】をクリック。
【URL の削除】をクリック。
【新しい削除リクエスト】をクリック。
検索結果から削除するページの URLを入力。

【続行】をクリック。
※URL の大文字と小文字は区別されるので、入力するときは、大文字と小文字の区別も含めて、サイトで使用されているとおりに文字を入力。
【はい、このページを削除します】をクリック。
【リクエストを送信】をクリック。

重要: コンテンツを完全に削除するには、削除リクエストの提出から 90 日以内に行う必要があります。このようにしない場合は、削除したコンテンツが再び検索結果に表示される可能性があります。

ページが既に存在しない場合は、サーバーから 404（見つからない）または 410（存在しない）の HTTP ステータスコードが返されることを確認。HTML 形式以外のファイル（PDF など）は、サーバーから完全に削除。
ページがまだ存在している場合は、robots.txt を設定して Google によるクロールを禁止。URL へのクロールをブロックするように robots.txt が設定しても、該当 URL が別のサイトで見つかった場合は、Google のインデックスに登録される可能性があります。

2014年12月3日水曜日

ウェブマスターツール　URL の削除

robots.txt を使用して、Google や他の検索エンジンがサイトをクロールする方法を指定したり、Google 検索結果からの URL の削除をリクエストしたりできます。

削除をリクエストは、完全な権限を持つサイト所有者とユーザーがおこなえます。

これにより、サイトの削除をGoogleに伝える事が出来ます。

この機能は、古い情報や削除された情報を Google から削除する為におこないます。
例えば、情報がウェブページから削除しているにもかかわらず、Google 検索結果に表示される等の場合、ページの更新または削除を Google に依頼します。

2014年12月2日火曜日

ウエブマスターツール　コンテンツキーワード

コンテンツキーワード　カテゴリーページは、Google bot がサイトをクロールしたときに検出した重要なキーワードの一覧を表示しています。

検索クエリレポートや、ターゲットキーワードでの検索結果掲載順位に加えて、コンテンツキーワードで、サイトのコンテンツが Google にどう解釈されているかを知ることが出来ます。

キーワードの重要度は、サイトのページでの出現頻度に応じて決まります。

キーワードをクリックすると、そのキーワードの詳細ページが表示されます。

キーワード詳細ページに表示されているＵＲＬにカーソルを合わせると、該当ページのプレビューが表示されます。

ＵＲＬをクリックするとそのページにジャンプします。

このコンテンツキーワードで、コンテンツと全く関係のないキーワードが表示される場合は「ハッキング」されている可能性があります。

また、予想していたキーワードが表示されない場合は、次のような理由が考えられます:

Google でサイトのページをクロールできず、インデックスに登録出来ていない。
一部のキーワードは、Google によって定型文や一般的な言葉と見なされ、キーワードリストから除外される場合があります。実際に除外されるキーワードはサイトによって異なります。

これらの場合は、インデックス登録する必要があります。

●インデックス登録する方法

2014年12月1日月曜日

インデックス登録する方法

Google検索で検索結果に表示される為には、Googleのクエリに登録される必要があります。
このクエリに登録される事がインデックス登録です。

インデックス登録をされないと、検索結果に表示される事はありません。

サイトを更新したり、サイト内のＵＲＬに変更を加えた場合、「Fetch as Google」を使いGoogleにクロール要請を出す事が出来ます。
Googleボットがサイトをクロールし、インデックス登録される事になる為、自分でGoogleインデックス登録はできません。
またクロールされたからといって、全てがインデックス登録されるわけでもありませんし、一度インデックス登録されても、登録を外される場合もあります。

この為にはこまめな更新と、更新したら「Fetch as Google」でクロール要請をする事が必要になります。

登録: 投稿 (Atom)

analytics

このブログを検索