>HOME >IT >インターネットビジネス
Deep Web
しんそううぇぶ
コンピタント株式会社
Google、yahooなどの検索エンジンによって補足されるのが困難なページの集まりのこと。検索エンジンから見えているデータというのは世のWebページ全体のほんの僅かの割合でしかない。ミシガン大学の研究によれば、検索エンジンから巡回・補足されない情報の量は、すでに補足されている量の100倍以上と言われている。世界中に散らばるWebページには静的ページ、動的ページが混在しており、その大部分はDBに格納された動的ページである。基本的にGoogleは静的ページについてはインデックス化している(Googleは動的ページのインデックス化に一定の制限を設けている)ので、動的ページのサイトのデータというのは、検索エンジン対策上非常に不利になる。このようにWebページが深層と表層に分かれてしまう背景には検索エンジン側が晒されるリーガルリスクがある。たとえばデータベースと連動する動的ページをクローラーが集中的にクロールすると、データベース側の負荷が上がるためサーバ速度の低下やシステムダウンを引き起こす危険が高まる。このようなことから検索エンジンは技術的に深層に入り込めない訳ではなく、あえて避けていると推測することができる。実際、中国の検索エンジン百度は集中的なクロール活動を続けた結果、多くのサーバ管理者から一斉にクレームを受け、クロール活動を大きく制限せざるを得なかった。
クローラー ロボット型サーチエンジン サーチエンジン