ホームページ(ウェブサイト)のSEOとは、検索エンジンに最適化し、検索結果で上位表示されるための全ての施策を指します。そこで、SEOを考える上で、検索エンジンの仕組みとして「クロール」と「インデックス」の関係と検索結果の表示というプロセスを検討する必要があります。
検索エンジンによる検索結果の表示に関する「検索の仕組み」は次のとおり3つのプロセスがあります。
ウェブ検索は、あらゆる情報の場所を正確に記述した優れた索引を備えた大型書籍を参照するようなものです。ユーザーが Google 検索を実行すると、Google のプログラムが Google のインデックスを確認し、最も関連性の高い検索結果を特定して表示(提供)します。
検索結果の表示は主に次の 3 つのプロセスに分けられます。
クロール: Google がサイトを認識して検出する
インデックス作成: Google がサイトのインデックスを作成する
検索結果の表示: ユーザーの検索と関連する有益なコンテンツのサイトを表示する
まずはクローラー(Googlebot)がリンクやxmlサイトマップを頼りに、サイトやページを認識して検出し、ページ内容の取得を行います。
次にページ内容のデータ取得を元にサイトのインデックスを作成します。
そして、そのインデックス作成時に付けられたSEOスコア・ページスコアと検索キーワードとの関連性を元に、Google検索時に検索結果としてページを表示するようになります。
まずは検索エンジンにクロールしてもらうことが検索結果での表示の第一歩であり、何度もクロールされることによってページの内容を正確に読み取ってもらうことが検索順位での安定には重要です。定期的にクローラーにページ巡回してもらうためには、巡回しやすいサイト構造やページ構造を意識する必要があります。
クロールと内部SEOの関係
クロールは、Googlebot が Google のインデックスに追加する、新しいページや更新されたページを検出するプロセスです。
検索エンジンのボット(Googlebot、スパイダー)は、世界中のウェブサイトのリンクをたどったり、ウェブマスターから送信されたサイトマップを補足的に参照しながら、常に新しいページの発見や、更新されたページを発見するために、クロールを行っています。なお、クロールには「巡回」といった意味があります。
SEOを考える上では、こうしたクローラーにサイト内のページをくまなく巡回してもらって、サイト全体のテーマを伝えることと、何度もページをクロールしてもらい、ページの内容を正確に捉えてもらうことが重要になります。
ページのクロール頻度
Googleのサーチコンソールを確認すると、「クロールの統計情報」の項目で、「1 日あたりのクロールされたページ数」を確認することができます。
この1 日あたりのクロールされたページ数がクローラーにクロールされた回数です。
このクロール頻度・クロール回数自体は、SEOとして検索順位決定要因にはなりませんが、ページ更新や外部からの被リンクなどによって、ページの巡回数が向上していることを確認することができます。
クロール回数を上げたからといって検索順位が上昇することはありませんが、サイトの更新などに気付き、クローラーが反応していることの確認にはなります。何度もクロールされることによって、ページの主題の把握が進みますので、クロール頻度が高いこと自体は良いことです。
Googlebotにクロールされない要因
Googlebotにクロールされない要因としては、該当ページを「robots.txt」でブロックしていたり、リンク元にnofollowがついていたり、リンク否認を行っていたり、といった要因が挙げられます。またnoindex設定をしているページへのクロール頻度は基本的に低下します。
またクロール速度の制限やクロールの必要性などを元にクロールされる前提となるクロール数スコアとしてクロールバジェットと呼ばれる要因があります。ただしよほどの大規模サイトでない限り特に気にするような項目ではありません。
クローラーの巡回をブロックする「robots.txt」ほどまでではないですが、意図的にGooglebotにクロールされにくくするポイントとしてXMLサイトマップ(後述)の工夫があります。
XMLサイトマップに載せていないページへのクロール頻度は低下するため、比較的クロールして欲しいページのみXMLサイトマップにURLを載せるといったクロール対象ページの制御もクローラビリティに影響します。
クローラビリティの向上
ホームページ(ウェブサイト)内部で実施できるSEO(検索エンジン最適化)としては、サイト内部の構造をスマートにし、クローラーと呼ばれる「ボット」がサイト内を巡回しやすいように工夫し、サイト内部のコンテンツをくまなく巡回できるように施策する「クローラビリティ」の向上が一つの要素です。
クローラー(Googlebot)は同一サイト内のリンクや外部サイトからのリンク(被リンク)、そして、XMLサイトマップなどを頼りにページの巡回を行います。
クローラーが巡回しやすいように、なるべく少ないクリック数で全てのページへと移動できるように工夫したり、XMLサイトマップを作成してサーチコンソール内で送信することで、サイト全体の構造が伝わりやすくなりクローラーの巡回が行われやすくなります。
こうしたクローラーの巡回のしやすさへの工夫であるクローラビリティは、特にページ数が多いサイトであればあるほど意識して施策していく必要があると言えるでしょう。
このGooglebotは、ページを何度もクロールすることで、ページの内容を把握し、次のインデックス作成へと移ります。
ページ内部のマークアップ
クロール時にページの主題や内容を正確に検索エンジンに伝えるためには、ページ内部をボット用に最適化する必要があります。
ページ内部のHTMLマークアップを適切に施すことにより、文章などのテキストコンテンツの論理構造を伝えることができます。これがSEO内部対策の基本です。
サイト内のページ構造をシンプルにしたり、パンくずリストなどで親子関係を示しながら階層を提示したりといった工夫や関連ページへのコンテンツ内リンクの設置もクローラビリティ向上につながるでしょう。
XMLサイトマップ
クローラーは、サイト内外のリンクの他にXML形式で作成されたXMLサイトマップの送信により、その中に記述されたURLや更新日時をヒントにクロールを行います。
ただし、このXMLサイトマップは補助的な役割があるため、XMLサイトマップにURLを掲載したからといって、すぐに掲載された全てのURLが再クロールされるとは限りません。
XMLサイトマップの役割のひとつは、ページ深度が深く、なかなかクローラーが回ってこない場所にあるページの存在を示したり、ページの更新日時を示すことで再クロールを促すといった側面があります。
しかしながら、サイト内の深い階層にあるページは、基本的にサイト全体の主題からは遠い補助的コンテンツである事がほとんどですので、それほど気にするようなことではないのかもしれません。
XMLサイトマップ作成において、全てのページを掲載する必要はなく、noindexなどに設定しているページを意図的にURLリストから外すことで、クロールバジェットの最適化をすることができます。ただし、企業の公式ホームページなど、数ページから数十ページ、数百ページ程度のサイトでは、こうしたXMLサイトマップによるクローラー制御の必要はないでしょう。
インデックスの作成と内部SEOの関係
Googlebot はクロールした各ページを処理し、検出したすべての単語とページ上の場所を登録した大規模なインデックスを作成します。さらに、title タグや alt 属性などの主要なコンテンツタグや属性に含まれる情報も処理します。
クロールが完了すると、次にボットはインデックスの作成を行います。インデックスの作成にあたり、ホームページ(ウェブサイト)の本文だけでなく、タイトルなどのメタ情報や、ページ内に設置された画像の alt 属性なども処理します。
こうして、「このページはどういったページか?」ということが把握できた段階で、検索結果に表示するための「インデックス」を作成します。
ただし、全てのページがインデックスされるわけではなく、ある程度高い品質で、検索ユーザーにニーズがあると判断されるクオリティが必要になります。
インデックス作成にあたって、一度のクロールで重要箇所の判断などが完了はしないため、複数回クロールされてからでないと、キーワードとの関連性などが確定せず、検索順位は安定しません。
インデックスの対象から除外する設定(SEO内部対策)
低品質のコンテンツがホームページ(ウェブサイト)の内部に存在することで、サイト全体のSEO評価に影響を与えることがあります。
例えば、ページの内容がたった一行「今日も暑かった」という文章であれば、インデックスの対象にはならない可能性があります。こうした低品質ページはメタ情報でインデックスの対象から除外する設定(noindex)によって、サイト全体の価値の低下を防ぐことができます。
品質の安定化を考えて適切にインデックスの対象から除外することが、検索エンジンのインデックス作成に関するSEO内部対策のひとつと考えることができます。重複コンテンツや類似コンテンツに関しても、同様のインデックス制御が必要になるでしょう。
キャッシュの削除(URLの削除)
robots.txtでクローラーの訪問を拒否しておらず、一度以上ページにクローラーがやって来た場合、メタ設定でnoindex設定などを指定していない限り、ページ内容は品質にもよるものの一応インデックス対象となります。
こうしてクロール→インデックスという手順を踏んだ場合は、検索エンジンのデータベース内にページデータのキャッシュが保存されます。
このプロセス後は、仮にページを削除しても一定期間ページ内容は検索エンジンのインデックスに残存します。
もし、SEOに関する設定ミスなどで「特定のユーザー限定ページ」がインデックスされてしまうなど、ページ内容がインデックスされてしまっては困るといったケースでは、ページの削除やURL変更、robots.txtで該当ページのクローラー訪問を拒否した後、サーチコンソールでURLの削除申請を行います。
検索結果への表示とSEO
こうして、クロール、インデックスの作成というプロセスが完了すれば、各ページごとにスコアリングされ、検索クエリとの関連性などの計算結果によって、ホームページ(ウェブサイト)や各コンテンツページが検索結果へと表示されることになります。
検索エンジンの「検索結果表示」までのプロセスの間で、クロールとインデックスという流れがあり、コンテンツの品質やPageRank、SEO外部要因といった要素以外に、この2つに対応したSEO内部対策があります。
この2つのプロセスに対するSEOとして、クローラビリティの向上や適切なHTMLマークアップ、ページのインデックス制御などがあります。
これらはSEO内部対策の要素として重要なポイントです。特に単体ページのSEOよりも、サイト全体のSEOを考える上ではクローラビリティの向上やインデックス制御などの施策が重要になると言えるでしょう。
クローラーの巡回のしやすさを向上させるクローラビリティを高めるためには、サイト構造や内部リンク構造の最適化といったSEO内部対策が必要になり、インデックス制御に関しては、ページのメタ情報のSEO設定が必要になります。
サーチコンソールなどのツールを使い、検索結果での表示順位や「クロールの統計情報」でクロール頻度、ページのインデックス総数などを確認しながら、クローラビリティやインデックス制御といったSEO内部対策に関するSEOの改善サイクルを回していく必要があります。