クローラとは
クローラとは、Web上のページを自動で巡回し、文書や画像などの情報を取得してデータベースに蓄えるプログラムです。主に検索エンジンが検索結果を作る材料を集める目的で使われます。
人の代わりにHTML内のリンクをたどって次々と別のページへ移動し、見つけたページの内容やURLを記録します。この動きを繰り返すことで、広い範囲の情報を網羅的に集められます。結果として、新しいページの発見や更新の検知が自動で行えます。
仕組みの中心は「リンクを起点に巡回して収集し、データベース化する」ことです。これにより検索エンジンは最新の情報を把握しやすくなり、利用者は求めるページにたどり着きやすくなります。
一方で、悪意のある業者がメールアドレスを集めるなど、不適切な目的に使われる場合もあります。クローラは情報収集の入口を担う存在であり、集められたデータは後段の索引作成や表示順位の計算に活用されます。

