Google検索の How Search Works のページの日本語版がでたので読む

Google検索の How Search Works のページの日本語版がでたので読んで気になったところをメモする。

www.google.com

f:id:sakura818uuu:20171120113816p:plain
How Search Works 日本語版のトップページ


トップページの概要に、検索に対する Google の方針として3つのコアバリューについて紹介されている。

  • ユーザーを最優先する
  • ウェブサイトの所有者をサポートする
  • 情報アクセスの機会を最大限確保する

f:id:sakura818uuu:20171120114305p:plain
Google検索の3つのコアバリュー


www.google.com

上記はクロールとインデックス登録のページである。

Google 検索のインデックスには数千億ものウェブページが登録されており、そのサイズは優に 1 億ギガバイトを超えます。

数千億…

Google 検索では現在、主要な図書館に所蔵されている何百万冊という書籍からテキストを検索したり、地域の公共交通機関の移動時間を調べたり、世界銀行などの一般公開されている情報のデータを検索したりすることができます。

Google ブックスのプロジェクトが進んでると捉えていいんだろうか…。Google ブックス個人的にとても応援しているのでもっとよくなるとうれしい: )


www.google.com

上記はアルゴリズムのページである。

たとえば、1 つの単語に複数の定義がある場合でも検索がユーザーの意図を理解できるのは Google の類義語システムのおかげです。このシステムは開発に 5 年以上かかりましたが、さまざまな言語の検索の 30% 以上で大きな成果を上げています。

これ知らなかった。論文とかで発表しているのであればぜひぜひ見たい


www.google.com

上記は便利な検索サービスのページである。

2016 年だけでおよそ 1,600 件の改良が Google 検索に追加されましたが、これらは Google 検索を改善するための長年にわたる努力のほんの一部にすぎません。

正確には1,653 件らしい。(後のユーザーを最優先するページに記載されている)

Google は 2012 年にナレッジグラフを導入しました。ナレッジグラフは、10 億件を超える現実世界の人物、場所、物事と、それらに関する 500 億件を超える事実とその関係性で構成される Google のデータベースです。

ナレッジグラフって2012年からだったのか。昔見たTED(下のブログに記載)で検索は事実を尋ねるものと知識を尋ねるものの2種類に分けられるっていうのがあったけど、事実の検索はナレッジグラフが網羅しそうだ…

sakura818uuu.hatenadiary.com

尋ねる前に情報が手に入る

うむむ…便利だ…

Google では現在、毎年何兆件もの検索を処理しています。Google が毎日処理する検索クエリの 15% はそれまでに見たことのないものです。

そうなのか…! 15%は想像していたよりもとても大きな数字だ


www.google.com

上記はユーザーを最優先するのページだ。

まず、ページにのっていたこの動画がすごく面白かった。私は検索がとても大好きだけど、恥ずかしながらこの動画を見たことがなかった。私にとってとても興味深い内容だった。

www.youtube.com

2016 年には、検索に熟練した外部の評価者によるテストや本番環境でのユーザーテストなど、合計 15 万件以上のテストを実施し、1,600 を超える変更を加えて検索を改良しました。

15万件のテスト(130,336 件の検索品質評価テスト+18,015 件の比較テスト+9,800 件のライブ トラフィック テスト)、これもとても大きな数字だ。外部の評価者ってのはinternet assessorとかも含んでいるのかな…。

www.google.com

上記はサイトの所有者をサポートするのページだ。

安全で便利なウェブを守るためのウェブスパムとの戦いは、毎日が挑戦です。Google では検索の仕組みについて透明性を確保したいと考えています。しかしその一方、情報公開を進めすぎると、検索結果を操作して検索の質を低下させるスパムが発生する可能性があるため、慎重さも求められます。Google は、このことを身をもって学びました。1999 年、Google の創業者は、Googleアルゴリズムの中心的な新技術、PageRank に関する重要な論文を発表しました。この論文が公開されると、スパマーたちは、リンクを売買し合うリンク プログラムで Google の検索結果を操作しようとしたのです。

この論文紹介まだブログに書いてないから今度書こう。


www.google.com

上記はアクセスを最大化するのページである。

法的な削除リクエストの場合はすべて、政府からの削除リクエストに関する情報を透明性レポートで公開しています。

透明性レポートに関しては知らないので学ぼう

Google は、ユーザーの安全を確保するとともに、Google のサービスを提供している約 200 か国の法律や文化的規範を尊重したいと考えています。

本筋とはそれるけど国数っていくつだっけって思って調べたら、外務省のページでは196カ国(国連加盟国数は193)と記載されていた。wikipediaにはより厳密な国数の数え方が定義されていた。


まとめ

  • How Search Worksは英語版で(たしか)読んだことがあったので大体は知っていた。でも今回のほうがきちんと理解したといえるだろう
  • 透明性レポートや削除ポリシーに関して詳しく知りたくなった
  • 具体的な数字が随所に書かれていたのが印象的だった。そのなかでも、2016年のテストの件数は15万件以上だったこと・検索クエリの 15% が初めてのものだということ・ナレッジグラフのデータベースにに500 億件を超える事実があること などは驚いた。
  • 動画がとてもおもしろかった