検索エンジンの基本的な仕組みを理解する

車に動力をもたらすエンジンはどういう原理になっているのか？
どうしてブレーキを踏むと止まるのか？

といったことを知らなくても、自動車を運転することはまったく問題なくできる。

しかし、
定期的にエンジンオイルは交換しなくてはならないのは何故か？
長い坂道を降りるにあたって、ずっとブレーキを踏んでいると何故危険なのか？

といったことは、自動車の仕組みをある程度知らないと、理解することができない。
自動車の仕組みを知ることは、自動車を長持ちさせたり、より安全に運転することにつながる。

故障を未然に防いだり、危険を回避することに大きく役立つのだ。

実は検索エンジンにもこれと同じことが言える。
検索エンジンの仕組みを知らなくても、Webサイトの運営はできるしSEOを実施することも可能である。

しかし、知っておくとよりSEOの根本、何故そうしなくてはならないのか？
といった理由がわかるようになる。

なので、初心者向けの内容であるが検索エンジンの基本的な仕組みについて書いてみるのだ。

※クリックすると拡大します

検索エンジンというシステムはGoogleに限らず原理的には

クローラー
インデクサ
サーチャー

この3つのシステムが連携して一つのシステムとして動作している。
社内文書検索システムといった比較的小規模のシステムも、Googleといった超巨大システムであっても動作原理は基本的には一緒である。

Googleといった大量の文書を処理し、多くのユーザーが同時に利用するシステムの場合は、クローラー、インデクサ、サーチャーのそれぞれについて多くの台数のコンピュータが用いられている。
推定では100万台のコンピュータが使われているとも言われている。

さて、これらのコンピュータがどのような働きをしているのか概要を説明してみよう。

クローリング
クローラーがインターネット上にあるWebページを取得しにいく。
リンクをたどってリンク先のページを取得するのが原則であるが、ウェブマスターツールから登録されたサイトや、sitemap.xmlなどから取得する場合もある。
インデキシング
クローラーが取得したデータを、インデクサに蓄積する。
インデックスとは索引のことである。
巨大なデータの中から、要求に応じて瞬時に必要なデータを提供するためには、索引に相当する仕組みが必須である。
検索エンジンというシステムは超巨大データのインデックスそのものであるといえる。
クエリ実行
ユーザーが検索エンジンのWeb画面を介して検索結果の要求をする。
ちなみにクエリとは大規模なデータを扱うシステムに対して、データの取得や加工を要求することを一般的には指す。
つまり検索エンジンに対してクエリするとは、検索結果データの取得の要求をすることを示しているのである。
データ問い合わせ
クエリの依頼を受け付けたサーチャーが、インデクサに対して該当するデータを要求する。
データ引渡し
インデクサに蓄積されたデータの中から、必要なデータをサーチャーに対して引き渡す。
検索結果表示
引き渡されたデータをアルゴリズムにもとづいて並べ替えを行い検索結果として表示する。
アルゴリズムとはコンピュータが何かを行う際に、処理を行うための手続きのことを指す。
コンピュータの処理は全てアルゴリズムに基づいているわけだ。
しかし、検索エンジンの利便性のほぼ全てを決定するものは、どのページがどれだけ重要かという順位付け（スコアリングという）の良し悪しにかかっている。
そのために検索エンジンにおいて、アルゴリズムはスコアリングの部分のみを指すようになったのだと思われる。

非常に大雑把ではあったが説明は以上である。
これを理解すると色々なことがわかるようになる。

robots.txtの動作は①の部分についてコントロールする。
クローリングを禁止することができる。
noindexを指定すると①によって取得されたページが②の時点でインデックスされない。
しかし、クローリングは行われるため、noindexが指定されているページ中のリンク先はインデックスされる。

robots.txtによってクローリングを禁止しても、noindexによってインデックスを禁止しても結果的に検索結果には表示されないのは一緒である。
しかし、検索エンジンの動作はまったく異なるといったことが理解できるのだ。

この動作を理解しておかないと、robots.txtでクローラーのアクセスを禁止したページ内にcanonicalを指定してしまう。といった誤用が生じる。
robots.txtでクローリングを禁止されたページに、canonicalを指定しても検索エンジンは見ることができないから意味がないのである。

このようにSEOには最小限この程度の検索エンジンの仕組みを理解しておく必要がある。
仕組みを理解しておけば、テクニカルな問題に対して適切に答えを出すことができるのだ。

検索エンジンの仕組みや今後のSEOについてのあり方等4記事 | SEOのホワイトハットジャパンより:

2012年11月22日 6:23 PM

[…] SEOとその周辺の検索エンジンの基本的な仕組みを理解するという記事で非常にわかりやすく解説されています。 […]

返信
これは外道！詐欺的な悪徳SEO業者の3つの事例など10+4記事（海外&国内SEO情報） | Web担当者Forum より:

2012年11月30日 6:04 PM

[…] 検索エンジンの仕組みをあなたは理解していますか？ ★★★★☆ SEOする前に検索エンジンの動きを知っておこう（SEOとその周辺）検索エンジンの基本的な仕組みを解説している […]

返信
robots metaタグ(noindex,nofollow,noarchive)の使い方 | SEOのホワイトハットジャパンより:

2012年12月5日 9:59 PM

[…] 詳しい解説はSEOとその周辺の検索エンジンの基本的な仕組みを理解するという記事で解説されています。 […]

返信