Googleは日々アップロードを繰り返しており、2021年5月にはコアウェブバイタルと呼ばれる新しい評価指標も追加されます。
日々行われるアップデート情報をインプットすることは重要ですが、基礎となる情報を理解している方は少ないのではないでしょうか。
検索の仕組みを抑えておけば、学習効率を上げることにつながります。
例えばモバイルフレンドリーやコアウェブバイタルはレンダリング周辺のお話ですが、EATや品質の評価はインデックス周辺の話なのかな、と判断できます。
雑な前置きですが、早速内容に入っていきましょう。
検索の仕組みを知る
今、インターネットに散らばっている情報は無数にあります。
この記事もですが、Googleはどのように収集し、評価しているかご存知ですか?
ここではGoogleの検索の仕組みについて記載していこうと思います。
クロール
クロールとは、クローラーと呼ばれるプログラムがページに訪問してくることを意味します。
Googleではクローラーには様々な種類がありますが、主にGooglebotがメインと抑えておけば問題ないと思います。
説明は以上なのですが、正直、説明を読んだだけでは全くイメージが沸かず、流し読みする人も多いはず。
実際、僕もこう考えていました。
ちなみにMesureprotocolを組み合わせることで検出できるようになるのですが、Googleアナリティクス単体ではGooglebotのアクセスを検出できません。
そこで、FTP接続を行い、ルートディレクトリ配下のlogディレクトリから、アクセスログを確認すれば、いつGooglebotがサイトに訪れているか?を確認できます。
画像は僕のサイトのアクセスログの一部で、白塗りの箇所がbotの名前になっています。
Googlebotと、bingのbotがアクセスしていることが確認できますね。
冒頭にもお伝えした「クロールとは、クローラーと呼ばれるプログラムがページに訪問してくることを意味します」ということが確認できましたので、次の話に進みます。
クローラーはどこから来るか?
普段、僕たち検索ユーザーは検索してページを見つけます。
しかしクローラーはプログラムであるので、自発的な行動として「検索」という行為は存在しません。
クローラーは下記の方法でページを発見します。
- サイトマップ(代表的なものはxmlファイル)
- URL検査ツール
- 外部からの被リンク
上記の3つはGoogleが提供しているSearchConsoleを用いることで確認することができます。
サイトマップ
URL検査ツール
外部からの被リンク
これらを駆使することで、サイトにアップした記事やページを読み込んでもらうようにします。
発見した後はページを読み込み、そこからさらにリンクを検出します。
つまりトップページが読み込まれれば、自動的に掲載されているページもクローラーに発見されることになります。
僕のサイトであれば、サイトのトップページが検知されれば、必然とクローラーに「新たな記事が追加された」と検出されるようになります。
そのためサイトマップは必要なのかという見方もあり、この点をGoogleでも言及しています。
レンダリング
レンダリングとは、クローラーがページを表示することを指します。
簡単に言えば、発見されたURLから送信される様々なファイル(html、css、JavaScript、img、json、etc)を、ユーザーが見ているであろう画面に変換することです。

このレンダリングは、モバイルフレンドリーやコアウェブバイタルなどの前提知識として押さえておかなければいけなかったり、隠しテキストなど様々なSEO評価要素に関係してくる処理となっています。
インデックス
インデックスとはGoogle検索にヒットされるようになることを指します。この逆のノーインデックスとはGoogle検査で表示されない状態です。
基本的には新規ページをアップして、クロールされればインデックスに追加されます。
しかし、Googleは数千億ものページ情報が登録されているわけなので、不必要なページはインデックスされません。
インデックスされない代表的な条件は下記です。
-
- ペナルティを受けている
-
- robots.txtやmeta robotsの記述でクロールやインデックスを拒否している
-
- caonnicalタグで評価させにくいようにしている
-
- 低品質な記事をアップしている
一番最後の「低品質な記事」の定義ですが、正直分かりません。
コピーコンテンツだったり、サイト内で似たような記事が上がっている等、考えられそうな要因はあると思います。
この仕組みが分かれば、今後インプットしていくSEOに関する情報がある程度楽に入ってくるのではないかなと思います。