ビジネスサポートプランニング: 5月 2015

2015年5月31日日曜日

品質に関するガイドライン　コメントスパム対策　robots.txt またはメタタグを使用してコメントページをブロックする

robots.txtファイルを使用し、特定ページへGoogleのアクセスをブロックできます。
不正行為者は引き続きコメントやユーザーアカウントを作成できますが、コメント内のリンクによってサイトランク等への影響を受けなくなります。

例
guestbookサブディレクトリにコメントが保存されている場合は、robots.txtファイルに次の行を追加します。
Disallow:/guestbook/
これで、guestbookとサブディレクトリ内のコンテンツは、Googleインデックス登録されません。

また、メタタグを使用すると、選択したページ（例: http://www.example.com/article/comments）へのアクセスをブロックできます。

例
<html>
<head>
<META NAME="googlebot" CONTENT="noindex">

これらの方法で、新しいユーザーや信頼が確立されていないユーザーのプロフィールページをブロックすることもできます。
ユーザーの信頼が確立された段階で、クロールやインデックス登録の制限を削除します。

2015年5月30日土曜日

品質に関するガイドライン　コメントスパム対策　コメント内のハイパーリンクを許可しない

サーバーにアクセスできる場合、サーバーの設定を変更して、ゲストブック内のコメントリンクから HTMLタグを削除できます。
不正行為者は引き続きコメントを作成できますが、有効なハイパーリンクを設定・公開できなくなります。

2015年5月29日金曜日

品質に関するガイドライン　コメントスパム対策　「nofollow」タグを使用する

Yahoo!、MSN、Googleが共同で「HTML microformats」の「nofollow」を発表しました。
以来、この属性は広く採用されるようになっています。
rel="nofollow" 属性を設定したリンクは、PageRankの算出や、ユーザーのクエリに対するページの関連性判断に使われません。

例
不正行為者がコメントに次のリンクを追加した場合
<a href="http://www.example.com/">素晴らしいサイトです、また訪問させていただきます。</a>
これは、変換されます
<a href="http://www.example.com/" rel="nofollow">素晴らしいサイトです、また訪問させていただきます。</a>

これで、新しいリンクは、PageRank算出時に考慮されません。

nofollowによりスパムは防止できませんが、PageRankが転送される問題は回避されます。

多くのブログサイトでは、投稿されたコメントにnofollow属性がデフォルトで自動追加されます。

2015年5月28日木曜日

品質に関するガイドライン　コメントスパム対策　コメントの管理機能を有効にする

コメントの管理機能は、手動でコメントを確認し、承認したもをサイトに表示します。

この方法はコメントの監視に時間がかかります。
ユーザーの利便性向上に有効で、感情的なったり意見の分かれる問題、炎上しそうな問題等を頻繁に扱う場合に特に効果的です。
この機能は、ブログソフトウェアで設定できます。

2015年5月27日水曜日

品質に関するガイドライン　コメントスパム対策　スパム対策ツールを使用する

ウェブサイト開発ツール、特にブログツールでは、ユーザーに対して、悪意のあるスパムエンジンではない本物の人間のユーザーである証明を求める事が出来ます。
多くの場合、CAPTCHAが表示され、その画像にある文字や数字を入力するよう求められます。

CAPTCHA（キャプチャ）の例

音声CAPTCHAに対応している場合もあります。
この方法は、ユーザー生成スパムを防ぐ最も効果的な方法です。
CAPTCHAにより、ページに気軽にコメントする読者数は減少しますが、コメント品質は確実に上昇します。
GoogleのreCAPTCHAサービスは、無料で使用する事が出来ます。
また簡単にサイトに実装できます。
さらに、reCAPTCHAサービスから収集したデータは、書籍や新聞などのテキストをスキャンするプロセスの改善する事が出来ます。
reCAPTCHAを利用することで、サイトを不正行為者から守るだけでなく、あらゆる書籍のデジタル化ができます。

reCAPTCHA登録ページ

WordPressやPHP等のアプリケーションやプログラミング環境に簡単にインストールできるプラグインは、グーグルデベロッパーズのreCAPTCHAサービスページから入手できます。

グーグルデベロッパーズreCAPTCHAサービスページ

2015年5月26日火曜日

自動化されたクエリ

Google 利用規約は、どのような種類かに関わらず、自動化されたクエリを Google から明示的な許可を事前に得ずにGoogle のシステムに送信することを禁止しています。
リソースの浪費につながる自動化されたクエリの送信には、WebPosition Gold などのソフトウェアを使って自動化されたクエリをGoogleに送信し、さまざまなクエリによる検索結果のランキングを調べる行為が含まれます。
ランキングを調べることに加えて、その他の自動化された手段で許可なく Google にアクセスすることも、Google のウェブマスター向けガイドライン（品質に関するガイドライン）および利用規約違反です。

2015年5月25日月曜日

リッチスニペット　とは

リッチスニペットは簡単に言うと、GoogleなどのWeb検索検索結果ページに、各サイトの情報の一部を、より多様に表示させる機能です。

この画面で説明すると

この様になります。
一般的な検索結果とは若干違った検索結果表示がされています。

この他にレビューや商品評価等多様な表現が出てきています。
現在グーグルでは以下のデータ型リッチスニペットをサポートしています。

製品 -価格、可用性、およびレビュー評価など、製品に関する情報、。
レシピ -ウェブ検索やレシピ]ウィンドウに表示することができるレシピ。
レビュー -そのようなレストラン、映画、またはストアなどのアイテムのレビュー。
イベント -このような音楽のコンサートやアートフェスティバルなどの組織化のイベント。特定の時間と場所で出席することができること。
SoftwareApplication -そのURL、レビュー評価、および価格を含むソフトウェアアプリケーションについての情報。

リッチスニペットを有効にするには、コンテンツ内の構造化データマークアップを含めます。
サイトのコンテンツをマークアップしたら、構造化データテストツールをテストします。
Googleはそれをサイトを次のクロールの時に発見し、反映されるようになります。

2015年5月24日日曜日

悪意のある動作を伴うページの作成

ウェブサイトでユーザーの予想とは異なる動作をするコンテンツやソフトウェアの配布は、Googleウェブマスター向けガイドライン（品質に関するガイドライン）違反です。
これには、ページのコンテンツを予想外の形で操作する、ユーザーの同意なしにユーザーのパソコンにファイルをダウンロードまたは実行する、Googleの望ましくないソフトウェアのポリシーに従っていないものが含まれます。
Googleはユーザーのクエリに対して最も関連性の高い検索結果を表示するとともに、ユーザーをウェブ上の脅威から保護しています（これはイタチごっこで完全とは言えません）。

悪意のある動作の例。

ページ上のコンテンツの位置を変えたり操作することで、ユーザーが特定のリンクやボタンをクリックしていると認識していても、実際にはページの別の部分をクリックしたことになるようにする。

ページに新しい広告やポップアップを挿入する、ページ上の既存の広告を別のものに置き換える、またはそのような動作をするソフトウェアを宣伝またはインストールする。

ユーザーがダウンロードをリクエストしたとき、ユーザーの意図しないファイルもダウンロードに含める。

ユーザーのパソコンにマルウェア、トロイの木馬、スパイウェア、広告、ウイルスをインストールする。

ユーザーの同意を得ることなくユーザーのブラウザのホームページや検索設定を変える。

2015年5月23日土曜日

オリジナルのコンテンツがほとんどまたはまったく存在しない　とは

検索結果で自サイトの表示を上位にするには、ユーザーにとって有用な情報であり、情報量を豊富にし、コンテンツのテーマと関連性が高いキーワードを適切に含めることです。

ただし、ページランキングを上げる目的で、キーワード数を多くし、コンテンツの内容がオリジナルがほとんどない場合や全くないページを作成して、ユーザーの興味を引いているサイト運営者も居ます。
Googleは、ユーザーにとって価値のないページやサイト（無断複製ページやオリジナルコンテンツがほとんどない等）を表示することによりランキングを上げようとするドメインに対し、対処をしています。

下記はユーザーにとって価値のないページやサイトの例です。

自動生成されたコンテンツ
誘導ページ
他ソースのコンテンツ（例: 無断複製されたコンテンツ、低品質のゲストブログ記事）
実質のないアフィリエイトサイト

サイトが Google 検索結果から削除された場合は、上記のリンク先記事を参考にし、ウェブマスター向けガイドライン（品質に関するガイドライン）で詳細を確認してください。
修正・変更をおこない、サイトがウェブマスター向けガイドライン（品質に関するガイドライン）に準拠していることを確認できたら、再審査リクエストでサイトをグーグルに審査してもらいます。

2015年5月22日金曜日

ウェブマスターツールにデータが表示されない場合

ウェブマスターツールにサイトを登録・追加してから、診断データ又はその他のデータが使えるまで、時間がかかる場合があります。
ウェブマスターツールがサイトのデータを収集して処理するのに時間がかかっている為です。
エラーではありません。
「データがまだありません」が表示された場合は、時間を置いて確認します。
サイトが頻繁にクロールされるようになれば、ウェブマスターツールに詳細なデータが表示され、データの更新頻度が高くなっていきます。

それでもデータが表示されない場合は、次のいずれかの理由が考えられます。

設定ミスで表示されない。例えばサイト www.example.com についてのデータが表示されない場合、サイトを登録・追加したときに http://example.comで登録してしまった。Googleは、この 2 つの URL はまったく別のサイトとして認識します。ドメインの www ＵＲＬと、www を含めないＵＲＬの両方をウェブマスターツールのアカウントに追加し、両方のサイトのデータを調べます。
「クロールエラー」セクションにデータが表示されない場合は、単に問題が検出されなかったことが原因の可能性があります。問題が検出されなかった場合でも、定期的に「クロールエラー」を確認しましょう。
「検索クエリ」セクションにデータが表示されない場合は、ユーザーが検索結果でサイトをまだクリックしていない可能性があります。サイトの検索順位が上がらない理由として考えられるものを確認します。
「サイトマップ」セクションにデータが表示されない場合は、サイトマップを作成して送信します。

Googleは、クロール、インデックス、検索クエリの統計情報など、サイトのデータ更新頻度を高めるようにしているようです。
これらのデータはサイトのコンテンツに基づき、サイトのステータスの近似値です。
Google システムは常に変化しており、更新されています。
また、ウェブ自体も常に進化しています。
ウェブマスターツールでは、データを集計してから提供するまでに時間差が生じる場合があります。ウェブマスターツールのデータは一定の間隔をおいて公開されます。
データの収集は常に行われています。
コンテンツが頻繁に変更されていない場合や、サイトへの新しいリンクがない場合は、ウェブマスターツールにログインしてもデータが更新されていない場合があります。

2015年5月21日木曜日

サイトの検索順位が上がらない。　サイト検索の掲載結果にページが表示されない理由

検索結果にページが表示されない理由について確認する

Googleは、すべてのクエリに対して関連性の高い結果を表示するようにしています。
検索結果は検索インデックスから取得されています。
検索インデックスは、ウェブ上にコンテンツが追加または変更されるたびに更新されます。
コンテンツの変更や Google のランキングアルゴリズムの更新により、検索結果でURLの掲載順位が変動したり、場合によってはインデックスから外れ掲載されない可能性があります。

こうした変動により慌てる事があるかもしれませんが、他ウェブサイトから適度にリンクされているサイトであれば、次回クロール時にインデックスに再追加される場合があります。
どのサイトのページについてもインデックスや特定のランクでの継続的な表示をＧｏｏｇｌｅは保証していません。
しかし、ウェブマスター向けガイドライン（品質に関するガイドライン）に記載されている推奨事項に沿ってサイトのコンテンツを作り込めば、検索結果にサイトが継続的に表示される可能性が高くなります。

検索結果にサイトが表示されない場合や掲載順位が以前より下がっている場合は、次を確認して、問題の原因を特定します。

2015年5月20日水曜日

2015年5月19日火曜日

Google でサイトをインデックスに登録できるようにする

Googlebotはクロールした各ページを処理し、検出したすべての単語とページ上の場所を登録した大規模なインデックスを作成します。
さらに、タイトルタグやalt 属性など主要なコンテンツタグや属性に含まれる情報を処理します。Google は多種多様なコンテンツを処理しています。
ただし、HTML、PDF、Flash ファイルは処理していますが、Silverlight など他のリッチメディアフォーマットのクロールやインデックス登録には課題を残しています。

サイトのインデックス登録の統計情報を確認する。この統計情報は、Google インデックスでサイトがどのように登録されているか表示します。
サイトの構成を確認する。ほとんどの検索エンジンはテキストベースで処理を行います。つまり、クローラーは、画像ファイル、Flash 以外のほとんどのリッチメディアファイル、JavaScript が生成するページ、ログインの必要なページに含まれているテキストを読み取れません。テキストベースの解読可能なコンテンツにすれば、ユーザーやクローラーがアクセスしやすいサイトを作ることが出来ます。

2015年5月18日月曜日

Google のインデックスの状態を確認する。

特殊な検索機能を使用すると、サイトがGoogle インデックスどのように登録しているか、サンプルの結果を確認できます。
これらの情報をすべて表示するには、info:google.com のように info: 演算子を使用します。

このブログの場合は
info:http://b-s-planning.blogspot.com

グーグルの場合は
info:google.com

各検索タイプについて説明します。

インデックスに登録されている、サイト内のページを表示する
site:b-s-planning.blogspot.comのように site:演算子を使用します（注: 演算子とURLの間にはスペースを入れない）。

ドメイン全体で検索したり、特定のドメインやサブドメインに限定して検索出来ます。

一部のページを検索結果から除外するには、演算子の前にマイナス記号（-）を付けます。
例：site:google.com -site:analytics.google.com で検索すると、analytics.google.com のページを除く google.com ドメインのインデックス登録されているページがすべて表示されます。

リダイレクトされるページに対して site: 検索を行うと、検索結果にはリダイレクト先が表示されます。
これは正常です。
例：www.example.com が www.redirectedexample.com にリダイレクトされた場合、site:www.example.com で検索すると、www.redirectedexample.com の結果が表示されます。
このようなリダイレクトがページのランキングに影響することはありません。

サイトのホームページにリンクしているページを表示する
このブログの場合、link:b-s-planning.blogspot.com になります。
グーグルを例に出すと
link:google.com または link:www.google.com　になります。
前者の検索結果の方がより完全に近い結果が表示されます。
link:google.com/webmasters とすると、特定のページやディレクトリへのリンクを検索できます。

Google でのサイトのキャッシュを表示する
cache: 演算子は、Googleインデックスに登録されているページのアーカイブコピーが表示します。
このブログの場合　cache:b-s-planning.blogspot.com　と入力すると、最後にインデックス登録されたバージョンのGoogleホームページが、キャッシュの作成日に関する情報とともに表示されます。

プレーンテキストバージョンのページを表示できます。
Googlebot がどのようにページを認識しているかがわかります。

ユーザーがキャッシュバージョンにアクセスできないようにするには、noarchive メタタグを使用します。

<meta name="robots" content="noarchive">

ページは引き続きクロールされインデックスに登録されますが、ユーザーの検索結果には「キャッシュ」が表示されません。

サイトと類似しているページを表示する
related: 演算子は、探しているサイトと類似するウェブサイトが表示します。
この演算子は、検索結果ページで結果の横にある「類似ページ」をクリックした場合と同じ結果を返します。

この検索は、書店でプライバシーマークに関連する書籍を探す事と似ています。
結果には、他のビジネス書、作者、出版社、等関連書籍などが含まれます。
この演算子は関連する参考資料を探すために使います。
広範囲な内容を扱っているサイトを使用することで、最適で有用な結果を得れます。

Googleは、さまざまなサイトの類似性を複数の要素で判定しているようです。
表示されるサイトの品質がサイトのランキングや Googleインデックスの方法に影響しません。

2015年5月17日日曜日

Google でサイトを検出してクロールできるようにする

Googlebotは、新しいページや更新されたページをクロールし、検出したページを Googleインデックスに追加します。
クロールを開始する際は、前回のクロールで生成され、ウェブマスターから提供されたサイトマップによって増加したウェブページURLリストを使用します。
Googlebotはウェブサイトすべてにアクセスし、各ページのリンクを検出してクロール対象のページリストに追加します。
また、新しいサイト、既存のサイトへの変更、無効なリンクを検出し、Googleインデックスの更新情報として使用しています。

クロールエラーを確認する。ウェブマスターツールの「クロールエラー」ページでは、ボットがクロール時にアクセスできなかったURLの詳細を表示しています。エラーを確認し、可能な場合は修正します。ボットの次回のクロール時に変更点が検出され、Google インデックスの更新情報として使われます。
robots.txtファイルを確認する。robots.txt テストツールを使い、サイトのURLやディレクトリからGooglebot がブロックされていないか確認します。
URLがメタタグによってブロックされていないことを確認する。
サイトの構成を見直してアクセスしやすいものにする　（ベストプラクティス）。検索エンジンはテキストをベースに処理します。JavaScript、DHTML、画像、Silverlight などのリッチメディアを使用してナビゲーションやリンクを作成すると、サイトをクロールできない場合が多く発生します。
サイトの構成変更、新ドメイン移転の場合、掲載順位が低下します。この現象を防止するには、 .htaccess ファイルで 301 リダイレクト（「RedirectPermanent」）を使用して、ユーザー、Googlebot、他のスパイダーを適切にリダイレクトします（Apache の場合は .htaccess ファイルを使用し、IIS の場合は管理コンソールを使用します）。301 HTTP リダイレクトの詳細はこちらの記事を参照してください。
サイトマップの作成と送信する。サイトが既にインデックスに登録されている場合も、サイトマップでサイトの情報を提供し、どのURLが最も重要か通知できます。サイトマップは、Googlebot で簡単に見つからないようなリッチメディアをサイトで使っている場合や、サイトが新しく十分にリンクされていない場合などに役立ちます。

2015年5月16日土曜日

インデックス登録　概要

Google は、ほとんどの形式のページやファイルをインデックスに登録できます（詳細なリスト）。

ただし、一般的に検索エンジンはテキストをベースに処理します。
そのため、コンテンツがクロールされ、インデックス登録されるには、テキスト形式で作成する必要があります。
Googleは Flashファイルに含まれるテキストコンテンツをインデックスに登録できますが、他の検索エンジンでは登録されない場合があります。

これは、Flash、Silverlight、動画などのリッチメディアコンテンツをサイトに含めないわけではなく、検索エンジンがアクセスできるように、リッチメディアコンテンツファイルをテキスト形式でも提供する必要があります。

これにより、ボットがコンテンツをクロールしてインデックス登録できるだけではなく、コンテンツのアクセシビリティも高まります。
視覚障害がある、スクリーンリーダーを使用する、接続の帯域幅が小さいなど多種多様な理由で、ウェブページの画像を見ることができないユーザーも多い為、同じ内容のテキストを提供することで、より多くのユーザーが快適に有用的に利用できるようになります。

以下は一般的な形式についての詳細です。

2015年5月15日金曜日

インデックス登録　ベストプラクティス

サイトでリッチメディアを使用する場合は、次のグーグル推奨事項を参考にしましょう。

必要な場所でのみリッチメディアを使用する。コンテンツやナビゲーションには、HTMLを使用する。
テキストバージョンのページを提供する。 Silverlight を使用してホームページにスプラッシュ画面を表示し、ウェブサイトのルートURLにあるリッチメディア導入部からサイトの深い階層に設置しているHTMLコンテンツにリンクする場合があります。この場合、ボットはＨＴＭLに到達できない可能性があります。サイトでこのような手法を使用している場合、HTMLリンクをトップページに設置し、その次の階層でリッチメディアを使用します。こうする事により、ユーザーやGooglebot がリッチメディアを使用しないでサイト内を移動できます。

2015年5月14日木曜日

インデックス登録　iFrame

iFrameを使用してウェブページにコンテンツを表示する場合、iFrameで表示されるコンテンツは、インデックス登録されません。
この為、基本的にGoogleの検索結果に表示されません。
コンテンツの表示は iFrameを使用しないことをグーグルは推奨しています。
iFrameを使用する場合は、表示するコンテンツへテキストベースでリンクを設定し、Googlebotがコンテンツをクロールしてインデックス登録できるようにします。

2015年5月13日水曜日

インデックス登録　動画

Googlebotは動画ファイルのコンテンツをクロールできません。
この為、動画の情報をテキストで提供する必要性があります。
動画をインデックス登録する場合は、スクリプトの作成を検討するか、HTML内で動画に関する詳細な説明を提供します。
動画コンテンツは、Google ビデオ、YouTube、その他多くの動画ホスティングプロバイダでホストできます。
ユーザーは、検索結果ページから直接 Google Video や YouTube の動画を見れます。

2015年5月12日火曜日

インデックス登録　Silverlight とその他のリッチメディア形式

Googleは Flash ファイルをインデックスに登録できますが、Silverlight など他のリッチメディア形式のコンテンツについてはまだまだ多くの課題を残しています。
リッチメディア形式は視覚メディアのため、Googlebotでは問題となる場合があります。
一部のインターネットスパイダーとは異なり、Googlebotはリッチメディアファイルを読み込んでテキストやリンクを抽出できますが、該当する構造や文脈は失われます。
また、リッチメディアの基本はコンテンツを画像で表現するため、Googleが画像内の単語を検出できず、重要なキーワードを取得できない可能性があります。
つまり、リッチメディアコンテンツをクロールし、インデックス登録できた場合であっても、一部のテキスト、コンテンツ、リンクを取得できていない場合があります。

2015年5月11日月曜日

インデックス登録　Flash

Googlebotは、ユーザーがサイト上にある Flash SWF ファイルを操作して表示できるほとんどすべてのテキストをインデックスに登録することができ、そのテキストを Google 検索でスニペットの生成やクエリとの照合に使えます。
さらに Googlebot は、SWF ファイル内の URL（サイト内の他のページへのリンクなど）を見つけ、リンクを追跡できます。

Flashコンテンツは、クロールされインデックスに登録されるため、特別な対応をする必要はありません。
ただし、これは Flash やその他すべてのコンテンツのクロールやインデックス登録をグーグルは保証していません。

SWF ファイルが他のファイルからコンテンツを読み込む際、テキスト、HTML、XML、別のSWF等の形式に関係なく、外部コンテンツもインデックスに登録して、親のSWFファイルやその埋め込み先ドキュメントと関連付けます。

Googleは、Flashファイルのインデックス登録の改善に努力しているようですが、制限があります。
たとえば、現時点ではFlashファイルに含まれる双方向言語コンテンツをインデックス登録できません。

他の検索エンジンではFlash ファイルコンテンツ登録できない場合があります。
そのため、Flash のようなリッチメディアは主に装飾を目的として使用し、コンテンツやナビゲーションはHTMLを使う事をグーグルは推奨しています。
HTMLを使うと、クローラと相性が良いサイトになります。
また、スクリーンリーダーを必要とする視覚障害者、旧式のブラウザや非標準ブラウザを使用するユーザー、携帯電話や携帯端末など接続帯域幅が小さいユーザーなど、幅広いユーザーがアクセスできるようになります。
その他のメリットは、ナビゲーションにHTMLを使うことで、ユーザーはコンテンツをブックマークに登録したり、ダイレクトリンクをメールで送信できます。
この為、コンテンツをより多くの人が知る機会を作ることが出来ます。

sIFR（Scalable Inman Flash Replacement）を利用するのも一つの手段です。
ウェブマスターは、オープンソースプロジェクトの sIFR を使用して、テキスト要素を Flash 要素に置き換えることができます。
sIFR Generator

さらに、Google AJAX クロールスキームを適用すると、Flash やリッチメディアアプリケーションのインデックス登録の精度を高めることができます。
このスキームは JavaScript だけでなく、Flash やその他のブラウザ側の技術でも機能します。

2015年5月10日日曜日

アクセシビリティ　とは

年齢や身体障害の有無に関係なく、誰でも必要とする情報に簡単にたどり着け、利用できること。ウェブアクセシビリティの日本工業規格「JIS X 8341-3:2010」があります。

アクセシビリティの詳細（Wikipediaのページに飛びます)

2015年5月9日土曜日

インデックス登録　Googleインデックスに登録できるファイル形式

Googleインデックスは、ほとんどの形式のページやファイルのコンテンツを登録できます。

登録できる一般的なファイル形式。

Adobe Flash（.swf）
Adobe Portable Document Format（.pdf）
Adobe PostScript（.ps）
Autodesk Design Web Format（.dwf）
Google Earth（.kml、.kmz）
GPS eXchange Format（.gpx）
Hancom Hanword（.hwp）
HTML（.htm、.html、その他のファイル拡張子）
Microsoft Excel（.xls、.xlsx）
Microsoft PowerPoint（.ppt、.pptx）
Microsoft Word（.doc、.docx）
OpenOffice プレゼンテーション（.odp）
OpenOffice スプレッドシート（.ods）
OpenOffice テキスト（.odt）
リッチテキスト形式（.rtf、.wri）
Scalable Vector Graphics（.svg）
TeX/LaTeX（.tex）
テキスト（.txt、.text、その他のファイル拡張子）。一般的なプログラミング言語のソースコードも含みます。

Basic ソースコード（.bas）

C/C++ ソースコード（.c、.cc、.cpp、.cxx、.h、.hpp）

C# ソースコード（.cs）

Java ソースコード（.java）

Perl ソースコード（.pl）

Python ソースコード（.py）

Wireless Markup Language（.wml、.wap）
XML（.xml）

Google検索でファイルタイプを指定して検索する方法があります。
filetype: 演算子で検索すると、検索結果に該当のファイルが表示されます。
例えば、filetype：pdfでけんさくすると、拡張子が.pdfのファイルが表示されます（ファイル形式がＰＤＦのファイルではありません）。

ファイル形式を指定して検索すると、そのファイル拡張子を持つページが返され、関連性の高い結果の数を絞ることが出来ます。

2015年5月8日金曜日

メタタグを使用して検索インデックス登録をブロックする

ページがGoogle検索に表示されないようにするには、noindex メタタグをページの HTMLに挿入します。
Googlebotはそのページをクロールしたときに noindex メタタグがあれば、noindex メタタグを検出し、他サイトのリンクの有無に関わらず、該当ページをGoogle検索結果から完全に削除します。

重要noindex メタタグを有効にするには、robots.txt ファイルでページをブロックしない。
ページがrobots.txtファイルでブロックされると、クローラは noindex タグを認識できません。
そのため、ページは検索結果に引き続き表示される可能性があります。

noindexメタタグは、サイトへのアクセスをページ単位で制御できるため、サーバーに対するルートアクセス権がない場合に有効です。

サイトのページを全てのクローラから除外するには、メタタグをページの <head> </head>の間に挿入します。

<meta name="robots" content="noindex">

ページのインデックス登録を Googleウェブクローラのみが実行できないようにする場合はメタタグをページの <head> </head>の間に挿入します。

<meta name="googlebot" content="noindex">

検索エンジンウェブクローラによっては noindexを別の意味に解釈する場合もあります。
このため、他の検索エンジンではページが検索結果に引き続き表示される場合があります。

関連記事
Google がメタタグを特定できるようにする。

2015年5月7日木曜日

メタタグを使用して検索インデックス登録をブロックする　Google がメタタグを特定できるようにする。

メタタグを認識するにはページをクロールする必要があるため、わずかな確率ですが Googlebot が noindex メタタグを見落とす場合があります。
この場合、検索結果にページが継続して表示される為、タグを追加した後でサイトがクロールされていない可能性があります。
Fetch as Google ツールを使用し、Googleにページの再クロールをリクエストします。

また、設定ミスにより、robots.txt ファイルが該当URLをクローラからブロックしているため、タグを認識できない、場合もあります。
ページのブロックを解除するには、robots.txtファイルを編集します。
robots.txt の編集やテストは robots.txt テスターツールでおこなえます。

2015年5月6日水曜日

手動によるスパム対策の影響かどうかを確認する

「手動による対策」ページを確認する
Googleは、自動化したシステムでウェブページをクロール、インデックス登録、提供しています。
しかし一方では、検索結果の品質を守るために手動による対策をおこなっています。
サイトにスパムが含まれている場合や、ウェブマスターガイドラインに違反している場合は、サイト全体を検索結果から削除する場合もあります。
手動による対策がサイトランキングに影響する場合は、ウェブマスターツール手動による対策ページで通知されます。
この通知を見る為にはウェブマスターツールにサイトを登録し、所有確認済みでなければなりません。

Googleウェブマスターツールの手動による対策ページ

2015年5月5日火曜日

サイトが Google インデックスに登録されていることを確認する

site検索を行う
検索結果を見ても自分のサイトが表示されず、検索結果にサイトが登録されていないと認識した場合、実際には検索結果に登録されている場合が多くあります。
サイトが Googleインデックスに登録されているかを確認する場合は、検索でURL全体を入力し、サイトを検索してください。
たとえばこのブログを、site:http://b-s-planning.blogspot.com で検索すると http://www.google.com/search?num=100&q=site:http://b-s-planning.blogspot.com と結果が表示されます。

site: 演算子とドメイン名の間にはスペースを入れません。

URLを入力してサイト検索結果にサイトが表示される場合は、Googleインデックスに登録されています。

ただし次の様な場合もあります。

以前はインデックスに登録されていたサイトが現在は登録されていない場合。

ウェブマスター向けガイドライン（品質に関するガイドライン）に違反していたため削除された可能性があります。この場合、問題を修正した後、再審査をリクエストをおこないます。

ドメイン名でサイトの掲載順位を確認する
www.ドメイン名.com で Google検索します。
検索結果にサイトが表示されない、又は掲載順位が低い場合は、サイトがウェブマスター向けガイドライン（品質に関するガイドライン）に違反しているために「手動によるスパム対策」が実施さている場合があります。
マルウェアなど問題がサイトで発見されると、Googleはメッセージで通知してきます。
この場合、ウェブマスター向けガイドライン（品質に関するガイドライン）とサイトを確認してください。問題がすべて解消したら、再審査リクエストをおこないます。

新しいコンテンツを Google に通知する
作って間もない新しいサイトは、Googleで未検出の場合があります。
この場合、Googleにサイト情報を通知します。
サイトマップの送信は、Googleが新しいページを検出できるようにするグーグルへの通知方法の一つです。
サイトがインデックスに登録されていても、サイトマップを再度Googleに送信すると、どのページが最も重要かグーグルに通知する事が出来ます。

2015年5月4日月曜日

サイトの再審査リクエスト　とは

再審査リクエストは、「手動による対策」の通知に記載されている問題を解決した後に、Googleにサイトの審査を依頼するリクエストです。
手動による対策が適用された理由について詳しくは、手動による対策に関する記事を参照してください。

関連記事

2015年5月3日日曜日

再審査リクエスト　再審査の手続きとは

再審査の手続きは、ウェブマスターが「手動による対策」の通知を受け取った時点から、サイトで特定された問題に対処したかGoogleが判断した時点までの期間を指しています。

一般的な手続きの流れは以下の通りです。

「手動による対策」の通知を受け取り、記載されている問題を修正。
再審査リクエストの文書作成。
さらに問題がある場合は対処します（よくある誤りの記事を参照のこと）。
ウェブマスターツールで再審査リクエストを送信します。
Google から確認を受け取ります（リクエストの処理に日数を要する場合があります）。
リクエストが承認または不承認となります。

リクエストが承認された場合、サイトの手動による対策は削除されます。

リクエストが不承認となった場合は、再度再審査リクエストを申請する前に、必ず「再審査に関するよくある誤り」に関する記事を確認してください。

2015年5月2日土曜日

再審査リクエスト　再審査に関するよくある誤り

再審査リクエストの際に見られる間違いの例です。
再審査リクエストに同じような間違いがないことをご確認しましょう。

1. 否認ツールを正しく使用していない

否認ツールが不適切にしている場合があります。否認ツールを使用する際は次の点に注意しましょう。

バックリンクを排除するために、まずバックリンクを削除する事に最善を尽くします。バックリンクをやみくもに否認ファイルに追加しても再審査で最善を尽くしたとみなされません。再審査リクエストの承認を得る為には、まず自分でバックリンクの削除に最善を尽くします。
同じドメインからのサイトへの複数のリンクは、便宜上、否認ファイルで「domain:」で指定します。
サイトへのオーガニックリンクを否認しないようにしてください。

2. ハッキングされたコンテンツをクリーンアップする際に Fetch as Google を使用していない

Googleによると、サイトがハッキングされている場合、クローキングされたコンテンツが確認されることがよくあるようです。
この場合、クローラはウェブマスターやユーザーに表示されるページとは異なるページを認識しています。

この方法でサイトが悪用されているか確認する手段は、ウェブマスターツールのFetch as Google を使い、クローラが認識しているのと同じコンテンツか確認します。
原因となるハッキングが解決されていないと、ページのクロール時にスパムが認識されます。
この為、多くの再審査リクエストが不承認になります。
クローキングと不正なリダイレクトを参照してください。

3. 空のサイトに関する再審査リクエストを送信する

再審査リクエストは、該当するサイトを検索するユーザーに役立つコンテンツが実際に含まれている場合のみ送信しなければなりません。

再審査の準備が整っていないとみなされるサイトの例

空のサイト：コンテンツがほとんど、またはまったくないページが多く含まれるサイト。

ドメインパーキング：実際のコンテンツがなく、単にプレースホルダとして機能しているドメイン。

サーバーエラーなどのエラーによりアクセス不能なサイト。詳細はクロールエラーに関する記事を参照してください。

再審査リクエストをする前に、品質に関するガイドラインに違反していないことをご確認します。
再審査リクエストが不承認となった場合、次の再審査リクエストをする前に「手動による対策」を確認し、問題を修正します。

2015年5月1日金曜日

ハッキングとハッキングされたコンテンツ

ハッキングされたコンテンツとは、サイトにセキュリティ上の脆弱性を利用して、第三者がウェブマスターの許可なくサイト上に設置したコンテンツです。
Googleは、ユーザー保護の観点と、検索結果の信頼性維持のため、ハッキングされたコンテンツが検索結果に含まれないように努力しています。
これは近年大きな問題になってるハッキングによる損害がユーザーに大きな影響を与えているからです。
ハッキングされたコンテンツにり、有用でない検索結果が表示されるだけではなく、ユーザーのパソコン等のデバイスに悪意のあるコンテンツやウイルスがインストールされる恐れが大きくあります。
サイトのセキュリティを維持し、ハッキングを見つけたら直ちにクリーンアップをしましょう。

不正なハッキングの例
コンテンツの挿入：ウェブサイトへのアクセス権を不正に入手したハッカーが、サイト上の既存ページに悪意のあるコンテンツを挿入する事。
コンテンツの挿入は、悪意のある JavaScript をサイトに直接挿入するか、iFrame に挿入する形式でおこなわれます。

コンテンツの追加：ときには、セキュリティ上の欠陥によって、ハッカーがサイトにスパムコンテンツや悪意のあるコンテンツを含む新しいページを追加できるようになっていることがあります。このようなページは多くの場合、検索エンジンを操作することを意図しています。サイトの既存ページにはハッキングされた形跡が見られなくとも、このような新たに作成されたページによって、サイトにアクセスしたユーザーや検索結果におけるサイトのランキングに悪影響が及ぶおそれがあります。

隠しコンテンツ：ハッカーがサイト上の既存ページを操作すること。
多くのハッカーの目的は、検索エンジンに認識させるが、ウェブマスターやユーザーの目につくことが困難なコンテンツをサイトに追加すること。
この追加は、CSS や HTML を使用してページに隠しリンクや隠しテキストを追加する手法、又はクローキングのようにより複雑な変更を加える手法があります。

リダイレクト：ハッカーは、有害ページやスパムページにユーザーをリダイレクトするコードをウェブサイトに挿入すること。
この種のリダイレクトは、リファラー、ユーザーエージェント、デバイスによって挙動が異なる場合があります。
たとえば、検索結果のURLをクリックすると、有害ページやスパムページにリダイレクトするが、同じURLをブラウザから直接入力しアクセスした場合はリダイレクトしない等です。

不正なハッキングに対抗する最も効果的な方法は、ハッキングをさせないことです。
サイトが感染した場合の予防やクリーンアップに関する記事を参照してください。

登録: 投稿 (Atom)

analytics

このブログを検索