検索エンジン

Google検索(英語版のデスクトップ版)のスクリーンショット

検索エンジン(けんさくエンジン、: search engine)は、狭義にはインターネットに存在する情報(ウェブページウェブサイト画像ファイル、ネットニュースなど)を検索する機能およびそのプログラム。インターネットの普及初期には、検索としての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わったポータルサイト化が進んだため、検索をサービスの一つとして提供するウェブサイトを単に検索サイトと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。

狭義の検索エンジンは、ロボット型検索エンジンディレクトリ型検索エンジンメタ検索エンジンなどに分類される。広義の検索エンジンとしては、ある特定のウェブサイト内に登録されているテキスト情報の全文検索機能を備えたソフトウェア(全文検索システム)等がある。

検索エンジンは、検索窓と呼ばれるテキストボックスにキーワードを入力して検索をかけるもので、全文検索が可能なものと不可能なものとがある。検索サイトを一般に「検索エンジン」と呼ぶことはあるが、厳密には検索サイト自体は検索エンジンでない。

検索エンジン(狭義)

ロボット型検索エンジン

与えられた検索式に従って、ウェブページ等を検索するサーバ、システムのこと。検索式は、最も単純な場合はキーワードとなる文字列のみであるが、複数のキーワードにAND(「かつ」、論理積)OR(「または」、論理和)等の論理条件を組み合わせて指定することができるものが多い。

ロボット型検索エンジンの大きな特徴の一つとして、クローラ(ロボット・スパイダー)を用いることが挙げられる。このことにより、WWW上にある多数の情報を効率よく収集(日本の著作権法では複製)することができる。大規模な検索エンジンでは、80億ページ以上のページから検索が可能になっている。

収集したページの情報は、前もって解析し、索引情報(インデックス)を作成する(日本の著作権法では編集)。日本語などの言語では、自然言語処理機能が生成される索引の質に影響する。このため、多言語対応した検索エンジンの方が精度の高い検索が可能となる。

検索結果の表示順は、検索エンジンの質が最も問われる部分である。ユーザーが期待したページを検索結果の上位に表示することができなければ、ユーザーが離れてしまうからである。そのため、多くの検索エンジンが、表示順を決定するアルゴリズムを非公開にし、その性能を競っている。検索エンジン最適化業者の存在も、アルゴリズムを公開しない要因になっている。Googleは、そのアルゴリズムの一部であるページランクを公開してきたが、やはり、多くの部分が非公開になっている。Googleの場合、創設初期におけるアルゴリズムについては、創設者自身がウェブ上で公表している論文でその一端を知ることができる。 参照 英語原文[1] 日本語の解説[2]

ウェブページの更新時刻の情報を用いて、新しい情報に限定して検索できるものや、検索結果をカテゴリ化して表示するものなど、特長のある機能を搭載したり、検索結果をユーザーへ最適化していく動きもある。

従来のウェブページを検索するだけの検索エンジンにとどまらず、最近ではインターネットショッピング専用の検索エンジンなど、特定の分野に特化した検索エンジンの開発も散見される。商品検索では、価格比較サービス日本最大手の価格.comや、ベンチャー企業が開発するQOOPIEなどある。また、職業検索エンジンとしてはCraigslistなどがある。 GoogleYahoo!千里眼(終了)、インフォシークテクノラティMARSFLAGAltavistaムーターAlltheWebTeoma英語版(終了)、WiseNut英語版Inktomi(終了)、SAGOOLYahoo! JAPAN (2005.10〜2010.11[要出典]) など。

ディレクトリ型検索エンジン

人手で構築したウェブディレクトリ内を検索するサーバ、システムのこと。

人手で構築しているため、質の高いウェブサイトを検索可能。概要を人手で記入しているため、検索結果の一覧から目的のサイトを探しやすい、サイトのカテゴリ分けがされていることから、特定分野や地区などに限定したサイトを探しやすいという特長がある。

しかし、検索対象となるサイトは人手で入力するため、検索対象となるサイト数が多くできないという欠点がある。

インターネットが一般に使われるようになった初期(1990年代)のころには、ディレクトリ型が主体であったが、WWWの爆発的な拡大によって、あらゆるウェブサイトを即時にディレクトリに反映させることが事実上不可能になり、現在では主流ではなくなっている[いつ?]このため、ディレクトリ型検索エンジンでは、検索にヒットするサイトが無かった場合、ロボット型検索エンジンを用いて結果を表示するような、併用型のものが多い[いつ?]

日立国際ビジネスのHole-in-One( - 2004年11月)、Yahoo!JAPANのYahoo!カテゴリ( - 2018年3月[3])、LookSmart Japan( - 2006年6月[4])、gooのgooカテゴリー検索( - 2019年8月[5])、Open Directory ProjectことDMOZ( - 2017年3月)など。

分散型検索エンジン

P2P通信によってウェブコンテンツのインデックスを多数のピアに分散させ、P2Pネットワーク全体で各ピアの持つインデックスを共有する検索システムのこと。

ウェブのクロールは各ピアが独自に行い、インデクサーはRWI(Reverse Word Index)を作成する。作成されたインデックスの一部はDHT(分散ハッシュテーブル、Distributed Hash Table)として他のピアに分配される。

検索は自分のピアの端末からP2Pネットワーク上にある他のピアにリクエストを送信することにより行うことができる。

分散型検索エンジンの例としてはYaCyがある。YaCyは「人民による人民のためのウェブ検索」を標榜し、分散型であることにより検閲を防ぐことができるとしている。[6]

メタ検索エンジン

ひとつの検索ワードを複数の検索エンジンで検索することをメタ検索という(横断検索エンジンと呼ぶこともある)。 詳細は「メタ検索エンジン」を参照のこと。

検索エンジン(広義)

全文検索システム

与えられた文書群から、検索式(キーワードなど)による全文検索機能を提供するソフトウェア、システムの総称で、ウェブサーバに組み込んで利用されることが多い。スタンドアローン環境で用いられる個人用途のものもあり、そういったものは特に「デスクトップ検索」と呼ばれている。企業内のファイルサーバー企業内ポータルを対象とするものは「エンタープライズサーチ」と呼ばれる。

歴史

欧米における歴史

検索エンジンのはしりは1994年スタンフォード大学ジェリー・ヤンデビッド・ファイロが開発したYahoo!である[7]。Yahoo!はディレクトリ型の検索エンジンでインターネットの普及に大きな役割を果たした[7]

その後、ウェブ上の情報を自動的に探索して情報を索引として整理するロボットまたはクローラと呼ばれるプログラムが開発された[7]

ロボット型検索エンジンの中でもラリー・ペイジセルゲイ・ブリンが開発したGoogle検索は検索結果のランキングと高速検索に優れていたため検索エンジンのトップに躍り出た[7]。Googleが1998年に稼動させたGoogle検索は、従来の検索エンジンがポータルサイト化へと進む流れに逆行し、独創的な検索技術に特化し、バナー広告等を排除したシンプルな画面だった。

Googleは2000年には米Yahoo!のロボット型検索エンジンに採用されたが、Google躍進に危機感を募らせた米Yahoo!は、2004年にロボット型検索エンジンを独自技術Yahoo! Search Technology (YST)(Yahoo!が買収したInktomiと、Overtureが買収したAltaVistaAlltheweb等の技術を統合した)に切り替えた。

2009年にはマイクロソフトが新たな検索エンジンとしてBingを発表した[7]

検索という行為が一般化するにつれて、各種目的別に多様化した検索エンジンが現れるようになった。ブログの情報に特化した検索TechnoratiblogWatcher、商品情報の検索に特化した商品検索サイト、サイトの見た目で検索するMARSFLAG、音楽検索、動画検索、ファイル検索、アップローダ検索ほか、次々と新しい検索エンジンが生まれている。

日本における歴史

黎明期

日本のインターネット普及初期から存在した検索エンジンには以下のようなものがある。黎明期には、豊橋技術科学大学の学生が作成したYahho[8] や、東京大学の学生が作成したODiN早稲田大学の学生が作成した千里眼など、個人の学生が作成したものが商用に対して先行していた(いずれも1995年に作成、日本電信電話株式会社NTT DIRCECTORY[9]、サイバースペースジャパン(現・ウェブインパクト)のCSJインデックスは1994年に作成)[10]。これらは単に実験用に公開されていただけでなく、多くの人に用いられていたものであり、黎明期のユーザにとっては知名度、実用度ともに高いものであった。またMondouなどのように研究室(京都大学)で作成したものもあった。

Yahoo! JAPANの独走

1995年12月にソフトバンクがアメリカ合衆国Yahoo!株を一部買い取り、翌年4月から日本版にローカライズしたYahoo! JAPANをサービス開始した。同年7月の展示会Interopでは机2つぶん並べる程度の小規模ブースで出展する程度の力の入れ具合で、ソフトバンクの一部署として開始する程度だったものが、もともとの米国Yahoo!の知名度、90年代後半のインターネット利用者人口の増加、ディレクトリ型だけだった検索をロボット型も追加、サイト登録した一部のウェブサイトの紹介をするYahoo! Internet Guide(ソフトバンククリエイティブ出版)との連携、日本Yahoo!株高騰のニュースでインターネットを利用しない人にも名前が知れ渡るなど、様々なプラス要因と経営戦略が見事に当たり、検索サイト首位の座を固めた。そして、検索サイトの集客力を武器にニュース、オークションなど、検索サービス以外のサービスを含めたポータルサイトとしての独走を始めた。

群雄割拠と収束

1997年頃から、WWWの爆発的な拡大に伴って、ディレクトリ型のみであったYahoo!のウェブディレクトリの陳腐化が急速に進んだ。2000年代には、日本でもGoogleに代表されるロボット型検索エンジンが人気を集め始め、国産ではinfoseekgooが登場(Yahoo! JAPANがロボット型検索エンジンにgooを採用)、2004年にはGoogleやYahoo!のエンジンに匹敵すると謳うTeomaを利用した検索エンジン、Ask Jeeves(現・Ask.com)が「Ask.jp」として日本上陸、2005年にはオーストラリアで誕生したMooterが日本上陸など、群雄割拠の時代になった。検索エンジンを利用すること=「ググる」というネットスラングも生まれた。

また、検索エンジンでは判断できない抽象的な条件などでの検索を人手に求めた、OKWave人力検索はてななどの「人力検索」「ナレッジコミュニティ」と呼ばれるサービスも登場した。

モバイル検索の分野は長らく公式サイトと呼ばれる世界がユーザーの囲い込みを行っていたため、脚光を浴びることが少なかった。次第にパソコンだけでなくフィーチャーフォン携帯型ゲーム機からもウェブサイトが検索される傾向が高くなり、GoogleやYahoo!をはじめとする携帯向けのモバイル検索サイトが登場した。ソフトバンク・Yahoo! JAPANがボーダフォンを買収し、KDDIがGoogleと提携するなどした。

2010年、Yahoo! JAPANがGoogleの検索エンジンを採用し、日本でも事実上Googleが圧倒的なシェアを保有するに至った[11]

リーガルリスク

深層ウェブ

Googleなどのウェブ検索エンジンでは、データベースの検索結果など多くの動的ページが検索対象になっていない。このような動的ページは「深層ウェブ」「見えないウェブ」「隠されたウェブ」などと呼ばれている。静的ページの500倍の量が存在し、多くは無料だといわれる。深層ウェブは、一般の検索エンジンなどからデータベースなどを見つけ出すか、直接アクセスした上で、それぞれの検索機能から再度検索しなければならない。また、ダークウェブを探索する際に使われる検索エンジンAhmiaも存在している。

著作権との関係

ロボット型検索エンジンは、その原理上インターネット上のコンテンツを複製の上で、検索を目的とした蓄積に適した形態で保存する他、場合によってはキャッシュとして提供できるような形態でも保存する場合がある。著作権をたてに、ウェブサイトの閲覧利用規約等と称して、一切のいかなる複製も禁ずるとするサイト等があり、どういったものかと古くより話題になっていた[12]

また、2006年11月には、日本の知的財産戦略本部コンテンツ専門調査会第3回企画WGにおいて、検索エンジンに関して「著作権法上、複製、編集には権利者の許諾が必要であり、Yahoo!、Googleなど大手検索システムのサーバーは海外に置かれているのが現状。」[13] と報告され、これをうけて経済産業省が日本国内でも合法的に検索エンジンサービスが行えるように著作権法の改正や検索エンジンの開発に取り組むと発表し[要出典]、2010年1月の改正で複製が合法とされた。

検索エンジン上の各種広告

2006年頃から日本ではURL(アドレス)を表示せず、社名や商品名などの検索キーワードを表示し、検索エンジンで検索させるように仕向けるテレビコマーシャルなどの広告表現が急増している。大抵はキーワードが書かれた状態の検索フォームとボタンを表示し、マウスクリックを促す演出がなされている。このような変化が生じた理由は不明であるが、各メディアの広告掲載基準の変更や、コマーシャルでURLを表示するのに比べてアクセス数を獲得しやすいことが増加の要因である。しかし検索結果に企業にとって不都合な情報が現れる場合があるため、グーグル八分のような検索結果の操作が行われるケースも考えられる。

現在、主流となっている広告手法として、ユーザーの検索結果後に広告を露出させる検索連動型広告と、サイトの中を分析し、そのサイトに合った広告を配信するコンテンツ連動型広告が主流である。

英語圏でも2013年ごろから「#wikipedia」のような番号記号を使った広告活動をおこなっている。

検索エンジンの課題と問題点

多言語化の課題

いわゆる「使用言語からみたインターネット人口の割合」は Internet Archive を用いて Euro MarketingGlobal Reach から過去の月次資料を整理すると次のような推移を辿っている。

1998年 1999年 2000年 2001年 2002年 2003年 2004年
12月 1月 4 - 7月 12月 2月 4 - 6月 7月 1月 6 - 10月 2 - 4月 7月
英語 58% 55% 51.3% 49.6% 47.6% 47.5% 45.0% 43.0% 40.2% 36.5% 35.8%
非英語 42% 45% 48.7% 50.4% 52.4% 52.5% 55% 57.0% 59.8% 63.5% 64.2%

※2005年2月2日の時点で、WWW検索エンジンの代表格であるGoogleでは80億を越す8,058,044,651ウェブページが登録されていた。

1995年以前のInternet Societyによればインターネットで用いられている言語のうち英語が占める割合は85%とされていたが、その後のITの進歩や各国のインターネットの普及により多言語化が進み、上表に見られるように2000年の年末には英語と非英語の言語人口が逆転し、その傾向は継続していった。このため検索エンジン各社は多言語対応に苦慮することとなった。

危険なサイトの侵入

検索エンジンは、利便性がある一方、危険性も存在する事やその被害例について参考文献や資料が存在する。検索エンジンの安全性に関する調査報告については、ウイルス対策ソフトなどを提供するセキュリティベンダーの米マカフィーが、2007年6月4日「検索エンジンの安全性に関する調査報告」を発表し「検索エンジンは危険であり、検索エンジンにキーワードを入力して上位に現れるサイトの危険度を調べたら、広告として表示されるサイトは、そうでないサイトの2.4倍も危険率が高い」としている[14][15]

また2006年05月12日に公表された調査報告書によると検索エンジンのキーワード検索結果には危険なリンクがあり、検索エンジンが自分を守ってくれると思ってはいけない。それどころか検索結果ランキングがサイトの安全性を反映していないことも多く、特に検索エンジン広告を訪れる場合、ユーザーは高いリスクにさらされると警鐘を鳴らしている[16]。 さらに、検索エンジンの提供サイトの危険度についての調査報告では、同マカフィーが「検索エンジンの安全度調査」を発表し「最も危険な結果が多いのは米ヤフー」としている[17]

検索精度

SEO対策の技術が進んだこともあり、検索上位が大手サイトやまとめサイトばかりになるなど、表示されるサイトに偏りが生じている[18][19][20]。昔のインターネットのほうが精度が高かったという感想も多い[21]

検索エンジンバイアス

ウェブサイトの人気と関連性のいくつかの組み合わせにもとづいてそれらを番付するよう検索エンジンはプログラムされているけれども、それらが与える情報のなかのさまざまな政治的、経済的、社会的な、バイアスを'経験的な'(: empirical)研究はしめす[22]

主な検索エンジンサイト

  • Google - 日本語他、多言語対応。
    • Yahoo! JAPAN - 日本語。Googleがバックエンドで、独自の検索はリアルタイム等一部のみ
    • goo - 日本語。Googleがバックエンド
    • Ask.com - 英語日本語。Ask.jpブランドとしては撤退、Googleがバックエンド
    • Startpage.com - 英語ほか、9のヨーロッパ言語。検索は日本語にも対応。プライバシー重視。Googleがバックエンド
  • Microsoft Bing - 日本語他、多言語対応。
    • Yahoo!(英語) - Microsoft Bingがバックエンド
    • DuckDuckGo - 英語、日本語ほか。プライバシー重視の検索エンジン、Microsoft Bingがバックエンド
    • Ecosia - 英語、日本語ほか・Microsoft Bingがバックエンド
    • Lycos - 英語、日本語ほか、Microsoft Bingがバックエンド
  • Brave Search - 日本語他、多言語対応。
  • Petal Search - 日本語他、多言語対応。
  • Yandex - ロシア語、英語他、多言語対応。日本語対応はしていないが、世界で4番目に利用されている(日本国内では6番目に利用されている)。
  • 百度 - 中国語。日本語検索は終了。日本語対応はしていないが、世界で4番目に利用されている(日本国内では5番目に利用されている)。
  • Cốc Cốc Search - ベトナム語。日本語対応はしていない(日本語はGoogleにリダイレクト)が日本国内でのモバイル利用者が6番目に多い。
  • 搜狗(Sogou) - 中国語。
  • NAVER - 朝鮮語。日本語検索は終了
  • Qwant - フランス発プライバシー重視の検索エンジン。一部の国(日本を含む)からの利用を遮断
  • Indeed - 求人専用検索。日本語他、他言語対応。
  • 皆声.jp - 日本語ブログ検索

サービスを終了した主な検索エンジンサイト

など。

脚注

出典

  1. ^ The Anatomy of a Large-Scale Hypertextual Web Search Engine(英語、Sergey Brin and Lawrence Page,Computer Science Department, Stanford University)
  2. ^ グーグルの検索順位決定についてーそのアルゴリズム
  3. ^ “「Yahoo!カテゴリ」終了へ 「役割終えた」”. ITmedia. (2017年6月29日). https://www.itmedia.co.jp/business/articles/1706/29/news079.html 2020年1月10日閲覧。 
  4. ^ 渡辺隆広 (2006年6月26日). “バリューコマース、「ルックスマート」を閉鎖”. SEMリサーチ. 2023年2月14日閲覧。
  5. ^ goo カテゴリー検索 サービス終了のお知らせ”. goo (2019年7月29日). 2020年1月10日閲覧。
  6. ^ Internet Watchの記事 "プライバシーが保護される分散型サーチエンジン「YaCy」~地道な開発が続く"
  7. ^ a b c d e 時実象一、都築泉、小野寺夏生『新訂情報検索の知識と技術 第3版』情報科学技術協会、2010年、58頁。 
  8. ^ 3/3 Yahhoという検索エンジンがあった [企業のIT活用 All About]”. 2017年10月18日閲覧。
  9. ^ 当時のNTT DIRECTORYのサイト(1997.12.11収集、ウェブアーカイブ)
  10. ^ 当時のCSJインデックスのサイト(1998.5.25収集、ウェブアーカイブ)
  11. ^ Yahoo! JAPAN - プレスリリース
  12. ^ たとえば 検索エンジンのキャッシュは著作権侵害か?(2002.3 スラッシュドット・ジャパン)などを見よ
  13. ^ コンテンツをめぐる課題(参考資料) (PDF) (2006.11 コンテンツ専門調査会 企画ワーキンググループ(第3回) - 知的財産戦略本部)
  14. ^ Internet Archive 検索エンジンに現れる広告サイトは2.4倍危険? - ワークスタイル - nikkei BPnet
  15. ^ Internet Archive マカフィー、「検索エンジンの安全性に関する調査報告」第3版を公開 ~毎月2億7,600 万件を超える検索がユーザを危険なサイトへ誘導~ - マカフィー株式会社
  16. ^ ITmedia エンタープライズ 検索エンジンは危険なリンクでいっぱい――McAfeeが調査報告
  17. ^ INTERNET Watch 危険な検索結果が多いサーチエンジンは米Yahoo!~米McAfee調査
  18. ^ “ネットのファスト風土化と、なんてことはない情報に価値がある話”. Web担当者Forum. (2010年6月8日). https://webtan.impress.co.jp/e/2010/06/08/8138 
  19. ^ 上位はスカスカな「まとめ記事」ばかり…そんなグーグル検索より便利な次世代サービスの共通点(プレジデントオンライン) - Yahoo!ニュース
  20. ^ グーグル検索の品質が落ちている?…検索エンジンはSEOスパムとの戦いに破れつつある | Business Insider Japan
  21. ^ 昔のインターネットのほうが便利だったかも いらない情報が多過ぎる現在のネットあるあるに「結局知りたい情報が載ってないことも」(1/2 ページ) - ねとらぼ
  22. ^ Vaughan & Thelwall 2004; Segev 2010
  23. ^ OCN navi(サーチエンジン登録ガイド)
  24. ^ 当時のMondouのサイト(2004.10.14収集、ウェブアーカイブ)
  25. ^ ディレクトリサービス"NTT DIRECTORY"(研究開発の歴史)(NTT)
  • Segev, Elad (2010). Google and the Digital Divide: The Biases of Online Knowledge. Oxford: Chandos Publishing. ISBN 9781843345657 
  • Vaughan, Liwen; Thelwall, Mike (2004). “Search engine coverage bias: evidence and possible causes”. Information Processing & Management 40 (4): 693–707. 

関連項目

外部リンク