第14回Elasticsearch勉強会の資料を読んだメモ
Elasticsearch勉強会(Elastic Tokyo User Group)の資料を第1回から順番に資料を読んでいく。今回は2016年1月7日に開催された第14回の資料を読む。
- ココが辛いよelasticsearch
- 機械学習を利用したちょっとリッチな検索
- Lucene Query 再考 - Domain Specific Query 実装 -
- Fluentd meets Beats
- Elasticsearchインデクシングのパフォーマンスを測ってみた
ココが辛いよelasticsearch
www.slideshare.net
読んだ感想
- Snapshot API/Restore APIで実際の検索結果をもとに検索結果を改善する用のクラスタを複製?
- 1系から2系のバージョンアップの時にどのように対応するか→2バージョンのクラスタを用意してリアルタイムで移⾏
- Elastic社にきいた簡単なバージョンアップ法→reIndexが終わった段階でSearch⽤のLBを切り替えればいい
- Facebook上に「検索索技術研究会」というのがあるらしい…!
機械学習を利用したちょっとリッチな検索
www.slideshare.net
読んだ感想
- テーマ 検索対象の情報を機械学習によって増やす・検索エンジンの集計機能を活かして検索をリッチにする。 検索エンジンはそのままでOK! – 検索エンジンの外側で機械学習を適⽤し、結果を利用する。つまりデータをElasticsearchに入れる前に機械学習を適用し、データをリッチにする。
- 機械学習とは何か、使うための必要な5ステップなどわかりやすい説明
- 実際に機械学習を Elasticsearchと連携するには
Lucene Query 再考 - Domain Specific Query 実装 -
www.slideshare.net
読んだ感想
Fluentd meets Beats
www.slideshare.net
読んだ感想
- fluent-plugin-beats Input plugin for Elastic Beats
- firebeatは(Beatsの一つ)は遅いから代わりにfluent-agent-hydraを使うといい
- fluent-plugin-beatsの利点はなんなんだろう…beatsかませなくてもfluentdからそのままelasticsearchにログ渡せばいいのでは.と思ってしまった
Elasticsearchインデクシングのパフォーマンスを測ってみた
www.slideshare.net
読んだ感想
- 複数セッションでデータを送信するとスループット向上だが、32セッション以上でデータ欠損の可能性あり
- ノード内のシャード数が多い(プライマリシャード数9〜)とオーバーヘッドが増加する
- 適切なbulkのサイズはMax(100MB)未満で1MBとか小さすぎなければOK
- index設計時にallやsource削減でスループット向上