第4回Elasticsearch勉強会の資料を読む
Elasticsearch勉強会(Elastic Tokyo User Group) #elasticsearchjp というものがあり、今までに20回以上勉強会が開催されている。
Elasticsearch勉強会の資料をまとめてくださっているページがあったので、そこを参考に第1回から順番に資料を読んでいく。
資料を読む目的は
- 他の方のElasticsearchのまとめ方を知る
- Elasticsearchの活用事例を知る
- Elasticsearchを図解的に学ぶ
- もやもやしてる部分(プライマリシャードや分散システム)を解決したい
- Elasticsearchに詳しい人を知る
第4回Elasticsearch勉強会
アナライズ処理の仕組みとクエリDSL/@johtani
http://blog.johtani.info/images/entries/20140421/Introduction_analysis_and_query_dsl_for_print.pdf
感想
- 転置インデックス・CharFilter・Tokenizer・TokenFilterについて
- TokenFilterの最後の出力結果が転置インデックスのキーとなる
- position:Tokenが出力される順序
- start/end offset:テキスト中の文字の位置
- クエリの一覧(35以上)
- analyzeするかしないかの違い 例:AWSとawsは違うとみなしヒットしない
- query_string…*を使うと(クエリが小文字に変換される|analyze処理されない)
- プラグインelasticsearch-extended-analyze…SolrのAnalysis画面のような情報をJSONで返却・アナライズ処理のデバッグのお供に
elasticsearch-hadoopを使ってごにょごにょしてみる/@yamakatu
elasticsearch-hadoopをつかってごにょごにょしてみる
感想
- elasticsearch-hadoop HadoopからElasticsearchをストレージとして利用する
- MapReduce,Hive,Pigができる
- DATA Expo’09から2007年のアメリカの航空客データセット 約750万件
- elasticsearch-hadoopそんなに速くない
CouchbaseとElasticsearchが手を結んだら/@madgaoh,@ijokarumawak
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
感想
- Couchbaseはドキュメント型NoSQLデータベースで横断的な処理は苦手 だからElasticsearch
- Couchbase Plugin for Elasticsearch
- 外部からデータを流し込むRiverプラグイン、外部にデータを転送するTransportプラグイン
Elasticsearch at Wantedly/@spesnova
Elasticsearch at Wantedly // Speaker Deck
感想
- Wantedlyの仕事探す検索システムにElasticsearchを使用している ドキュメント数約35万 プライマリサイズ約2GB
- 構成 Rails on Heroku, Elasticsearch 1.0.0 on EC2, Podtgresql9.3 on RDS, クラスタ構成
- 利用プラグイン head,HQ,Marvel,kuromoji,Inquisitor(Analyzerの挙動確認)
- indexは2つ 通常の検索用インデックスとautocomplete用インデックス
- elasticsearchをどうやって学んだか→公式リファレンス・Elasticsearch Workshop(https://speakerdeck.com/dadoonet/elasticsearch-workshop)・Elasticsearchチュートリアル - 不可視点(http://code46.hatenablog.com/entry/2014/01/21/115620)
- どうやってElasticsearchでACL(Access Control List)をしているか→最初はNested Documentだけを使用していたがハイライトなどが実現できない→フラットな構造でプライバシーレベルを表現 <型><データセット><プロパティ>のようにマッピング
- スキーマ変更時にサービスに影響を与えないよう、どうクラスタを更新しているか Blue-Green Deployment
ElasticsearchのScripting/@pisatoshi
ElasticsearchでScripting // Speaker Deck
感想
- Scriptingを大まかに3つに分類
- Dynamic Script クエリに直接スクリプトを記述できてお手軽
- Preloaded Script サーバにスクリプトファイルを配置($ES_HOME/config/script)
- Native Script Javaで実装,CLASSPASS上にjarファイルを配置 elasticsearch-native-script-example
- スクリプトは実行可能なノードでのみ処理される
Elasticsearch 向け多言語解析プラグイン
Basis Technology showcase at elasticsearch meetup in Japan
感想
- Rosette Search Essentials for Elasticsearch プラグイン? 多言語対応
- 言語処理 複数語分割・基本語化・正規化