検索ブログ

主に検索のことについて書いています。

検索の論文紹介:Google Search by Voice: A case study

タイトル Google Search by Voice: A case study
発行年 2010年
URL https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/36340.pdf キーワード:音声検索、Google検索

Googleの音声検索は長年の努力と技術の結晶である。音声検索を実現させるためGoogleは長年このプロジェクトに投資してきた。
はじめに2007年にGOOG-411を開発した。これは電話ベースの自動音声ガイダンスのようなものである。IVR(Interactive Voice Response,自動音声応答装置)を用いて、ローカルな位置情報の検索のシステムを構築した。翌年の2008年にGoogle Maps for Mobile(GMM)に音声インターフェースを導入した。これには2つの大きな進歩があった。1つは音声検索の出力結果を視覚的に表現できるようになったこと、もう1つは検索にかかる時間が大幅に軽減されたことだ。従来のIVRでは単一の音声出力結果だったが、GMMは複数の出力結果を視覚的に表現することを実現した。次に2008年11月にiPhoneGoogle Mobile App(GMA)を導入し、モバイルウェブ検索における音声検索のユーザビリティをより深く考える必要がでてきた。ここで少し技術の話に移ろう。
Googleの音声検索の目標は、音声検索クエリを認識することだ。それを実現するためには、様々な技術が必要となる。技術を用いて音声検索システムを構築するが、そのシステムを評価するための指標が次の5つである。WEP(Word Error Rate,単語の誤り率)、WebScore(クエリの意味品質)、PPL(Perplexity,クエリ内の単語数)、OOV(out of vocabulary,未知の単語)、 Latency(待ち時間)である。論文には記載されてるが、どのような音声モデルを用いたかや実験方法などはここでは省略する。音声検索システムには音声クエリを正規化することも欠かせない。コンテキストを認識するために音声クエリに時間・日付・URL・位置情報の注釈をつけたり、日本語や中国語の場合はその言語ならではセグメンテーションを行う必要がある。話し言語に基づいて言語モデルを構築するのが理想であり、そのために大量のデータ(論文では2,300億以上の単語で訓練したと記載されてある)を用い、実験を繰り返して音声モデルを改良している。また、言語のロケールを考える必要もある。論文では、2008年からアメリカ、イギリス、オーストラリアのそれぞれ3カ国で10kのクエリをサンプリングしていくつかの実験を行い、ロケールごとの違いについてのPPLやOOVを計測している。
Google検索を音声で行うことのユーザーインターフェースはまだ未知の部分が多く、検討する部分がたくさんある。例えば、音声検索をはじめるためのマイクボタンをどこに設置するか・片手で音声検索するユーザにとってのベストとは?・音声が終了したと認識するための沈黙とは・ジェスチャーベースの音声トリガー・いま話している最中と表示するための音声表示などである。
次に、検索するときに音声で検索するか、テキストベースで検索するかを計測し、加えてその検索キーワードをカテゴリに分類したの実験を行ったところ特定のカテゴリで顕著な結果が現れた。飲食や地元情報に関するカテゴリは音声での検索が多く、アダルトやインターネットカテゴリに関してはテキストベースでの検索が多かった。これは、音声検索が一般的に公共の場で行われることが多く、アダルトやインターネットカテゴリなどは機密性が高いコンテンツであるためプライバシーを守りたいためかもしれない。また、違う実験では音声で検索するか、テキストベースで検索するかのクエリ特性に違いがあることがわかった。音声の検索のほうが「位置情報を含む」「"WH"を含む質問(whyやwhatなど)」「1単語だけ」といった特性をもつクエリが多く、逆にテキストベースで検索する方は「URLのみ」のクエリが多いことがわかった。また、テキストベースの検索より音声検索のほうが1,2単語のクエリが頻繁に使われていて、5単語以上のクエリは稀であることがわかった。
最後に、モバイルデバイスの登場と強力なインフラによる高速なアクセスが音声検索の進化を可能にした。音声による入力はウェブにまったく新しい風をふきこむことだろう。