検索 Advent Calendar 以外の検索に関するAdvent Calendarのまとめ その1
検索 Advent Calendar 2017以外にも検索に関するAdvent Calendarの記事がいくつかあったのでまとめる。
- メルカリの類似画像検索
- Solrの検索の仕組み
- Google Chrome 拡張機能のgoogle検索タブ固定
- Clovaの人が開発してる類似文字列検索ライブラリResembla
- BingのBitFunnelアルゴリズム
メルカリの類似画像検索
説明
Mercari Advent Calendar 2017 の23日目の記事。
画像による類似画像検索の話。実際にメルカリで出品された100万件の商品画像データをもとに、深層特徴を用いてカテゴリーとブランドを推定するモデルを使って類似画像を抽出する。類似画像はA(見た目的にめっちゃ似てる 色が特に似てる)、B(AとCの中間)、C(カテゴリーとブランドが似てる)の3グループがある。こんなこと出来たら楽しいだろうなあ。深層特徴ってなんだ……。
Solrの検索の仕組み
説明
Solr Advent Calendar 2017の3日目の記事。
SolrはOSSの全文検索エンジン。記事の内容は
- 転置インデックス方式の検索エンジンは単語の完全一致検索が基本であるから、前方一致検索、中間一致検索には使うのは間違い。 ファセットによる絞り込み検索にANDを使わない
- Solr のハイライト機能使おう
など。あと、SolrはOSSになってから10年以上経つらしい。
こういう記事の内容の検索も好き。
Google Chrome 拡張機能のgoogle検索タブ固定
whywaita Advent Calendar 2017 の14日目の記事。
Google検索はクエリによって画像・動画・ニュースなどフィルタータブの位置が異なる。その現状をうけて、google検索タブ固定という名の Google Chrome 拡張機能を書かれたという話。
実際に使ってみた。
Clovaの人が開発してる類似文字列検索ライブラリResembla
LINE Advent Calendar 2017の13日目の記事。
品質のよい類似文字列検索を行うことが出来るライブラリResemblaの話。ResemblaはC++で開発しているらしい。内容は正直私には難しかった。これをLINEの音声アシスタントのClovaの人が開発してるってことが最初意外だった(よくよく考えればそう)。
BingのBitFunnelアルゴリズム
はてなエンジニア Advent Calendar 2017の21日目の記事。
ブログの記事をかいつまむと以下の通り。記事自体の分量も多く濃いため、参考文献まで見るとボリュームがある。
- BingでBitFunnelアルゴリズムベースを採用したら検索クエリのレイテンシが約1/2になった
- BitFunnelアルゴリズムでは、シグネチャファイルという古典的な方法を用いている
- シグネチャファイル方式の問題は誤検出
- シグネチャファイル方式のBitFunnel は、転置インデックス方式の検索エンジンとは性質が大きく異なる