第14回Elasticsearch勉強会の資料を読んだメモ

Elasticsearch勉強会(Elastic Tokyo User Group)資料を第1回から順番に資料を読んでいく。今回は2016年1月7日に開催された第14回の資料を読む。


ココが辛いよelasticsearch

www.slideshare.net

読んだ感想

  • Snapshot API/Restore APIで実際の検索結果をもとに検索結果を改善する用のクラスタを複製?
  • 1系から2系のバージョンアップの時にどのように対応するか→2バージョンのクラスタを用意してリアルタイムで移⾏
  • Elastic社にきいた簡単なバージョンアップ法→reIndexが終わった段階でSearch⽤のLBを切り替えればいい
  • Facebook上に「検索索技術研究会」というのがあるらしい…!

機械学習を利用したちょっとリッチな検索

www.slideshare.net

読んだ感想

  • テーマ 検索対象の情報を機械学習によって増やす・検索エンジンの集計機能を活かして検索をリッチにする。  検索エンジンはそのままでOK! –  検索エンジンの外側で機械学習を適⽤し、結果を利用する。つまりデータをElasticsearchに入れる前に機械学習を適用し、データをリッチにする。
  • 機械学習とは何か、使うための必要な5ステップなどわかりやすい説明
  • 実際に機械学習を Elasticsearchと連携するには
    • 選択肢1: オフラインで RやPythonなど好きなものを使って機械学習を適⽤してから情報が増えたデータをElasticsearchに投⼊
    • 選択肢2: fluentdのexec filterからオンライン機械学習向け分散処理フレームワーク — Jubatusを叩いてオンラインで適⽤する
    • 選択肢3: PFNが公開するOSSを利用する(Chainerもサポート、OSSの名前なんていうなんだろう)

Lucene Query 再考 - Domain Specific Query 実装 -

www.slideshare.net

読んだ感想

  • Lucene Query API
  • 近接検索系のクエリ

Fluentd meets Beats

www.slideshare.net

読んだ感想

  • fluent-plugin-beats Input plugin for Elastic Beats
  • firebeatは(Beatsの一つ)は遅いから代わりにfluent-agent-hydraを使うといい
  • fluent-plugin-beatsの利点はなんなんだろう…beatsかませなくてもfluentdからそのままelasticsearchにログ渡せばいいのでは.と思ってしまった

Elasticsearchインデクシングのパフォーマンスを測ってみた

www.slideshare.net

読んだ感想

  • 複数セッションでデータを送信するとスループット向上だが、32セッション以上でデータ欠損の可能性あり
  • ノード内のシャード数が多い(プライマリシャード数9〜)とオーバーヘッドが増加する
  • 適切なbulkのサイズはMax(100MB)未満で1MBとか小さすぎなければOK
  • index設計時にallやsource削減でスループット向上