第16回Elasticsearch勉強会の資料を読んだメモ

Elasticsearch勉強会(Elastic Tokyo User Group)資料を第1回から順番に資料を読んでいく。今回は2016年6月27日に開催された第16回の資料を読む。


LogstashとElasticsearchで作るEnterprise Search Platform

speakerdeck.com

読んだ感想

  • Samba?の話
  • スライドがきれい
  • Logstashの機能の説明

企業・業界情報プラットフォームSPEEDAにおけるElasticsearchの活用

www.slideshare.net

読んだ感想

  • Elasticsearchを導入した経緯はいままでMySQLでやってたけど速度に限界が出てきて、たまたまElasticsearch勉強会に参加した時に不動産検索の話があってそれが自社のやりたい検索と似ててこれ(Elasticsearch)なら今抱えてる悩みを解決できそうと思ったから
  • SPEEDAで行う企業名検索はWeb検索とは検索の特徴が違う Web検索ではトークン分割を形態素にして精度(precision)重視だけど企業名検索はトークン分割をngramにして再現率(recall)重視
  • Elasticsearch 1系を使用している
  • phrase_prefixによる検索処理の流れ
  • max_expansionsは検索文字列に先頭一致するtermを何個まで検索するか制御するパラメータ
  • ノード構成の見直しによりデータノードの負担が軽減され、更新処理、検索処理の性能を大幅に改善 具体的には改善前は検索応答速度0.5秒以上なのが7.2%あったのが改善後は2.7%になった

Elasticsearchベースの全文検索システムFess

www.slideshare.net

読んだ感想

  • Fessはbi-gramと形態素解析のハイブリット検索
  • Fessの今後→より大規模検索へ (対象容量が数十TBへ) ・Deep Learningを用いた検索 (画像とか)

GCPのネットワークでハマった話

speakerdeck.com

読んだ感想

  • Elasticsearch 2.3.1, CentOS 7.2使用
  • 2時間間隔でマスターノードとのpingに失敗する
  • 原因解決するまでの試行錯誤が書いてある
  • GCPのファイアーウォールはinactiveコネクションは10分で切断するので、Elasticsearchのnet.ipv4.tcp_keepalive_timeの設定を60秒にしたら解決した

スクリプトフィールドで作るランキングみたいな何か

資料が見つからなかった