検索の論文紹介:情報要求を満たさない文書の判別モデル構築と情報検索への活用

タイトル 情報要求を満たさない文書の判別モデル構築と情報検索への活用
発行年 2016年
URL https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=161756&item_no=1&page_id=13&block_id=8

キーワード:ウェブスパム、SVM

この論文では、検索エンジンにおけるユーザの情報要求に合致しない文書(不正解文書)を分析し、正解文書/不正解文書を見分けるモデルを構築し検索精度向上を図ることを目的としている。 不正解文書の一つとしてウェブスパムがあるが、その検出方法は主に2種類ある。

  • コンテンツベースでの検出方法…サイト内の単語やURLなどのコンテンツの特徴を見分けて検出する。特徴としては、通常のサイトに比べて異常なURLが含まれる・コンテンツの変化が速い・ページレイアウトの複製が行われているなどがある。
  • リンクベースでの検出方法…ウェブページ間のホップ数(ルーティングの数)や共引用(記事が複数の引用をしていること)などの位相関係に着目しグラフ構造を利用する。グラフ構造からリンク解析を行い検出する。

この論文での正解文書/不正解文書を見分けるモデルの構築方法を次に示す。
国立情報学研究所 NTCIR プロジェクト提供の NTCIR-5 WEB 文書データセット(http://research.nii.ac.jp/ntcir/data/data-en.html Data/Tools|NTCIR, 大山 敬三 - コンテンツ科学研究系 - 研究者紹介 - 研究 - 国立情報学研究所 / National Institute of Informatics)を利用する。これは約1億ウェブページで約1,200題の検索課題が設定されており、さらに各課題に対してすでに正解/不正解判別のフラグがすでに設定されている。まず、このサンプルデータから定量的特徴(文字数やリンク数、HTMLタグ数など)を分析する。そして、t検定とロジスティック回帰分析、AIC(Akaike's Information Criterion 統計モデルの選択基準)を用いてデータを分析する。分析した結果に対してSVMによる学習を行い、model AIC1〜4の4つのモデルを作成する。
評価実験では4つのモデルの判別精度の確認を行った後、従来手法との比較、実際に情報検索に適応した際の検索精度の確認を行った。

まず、判別精度の確認を行った。判別精度および判別処理時間を本論文では以下のように定義している。

まず,モデル構築に未使用のデータから評価用データを作成し,各モデルを用いて判別を行った. 判別結果と NTCIR-5 WEB で付与されている判別が一致する割合を判別精度とする. また,モデル構築に要する学習時間と判別に要する判別処理時間を測定した.

その結果、model AIC1〜4の4つのモデルのうちmodel AIC3 が最も有用であったそうだ。
次に、従来方法との比較を行った。従来方法との比較は以下のように行っている。

従来手法との比較では,モデル構築に使用する定量的特徴の違いによる判別精度の差を確認する. 従来のスパム検出では主に単語を文書の特徴とし,機械学習アルゴリズムの一つであるナイーブベイズを用い,判別を行っているが,モデル構築に使用する定量的特徴以外の条件を同じにするために,SVM を用いて単語の 出現頻度に基づいたモデル (model previous) を作成し,model AIC3 と評価用データの判別を行った.

これに関しては実際の論文にmodel previousとmodel AIC3 が比較されている表が掲載されているが、全ての評価項目においてmodel AIC3 の方が有用であった。このことから、正解文書/不正解文書を見分けるには単語以外の要素を考慮した方が効果的であると判断できる。
最後に、実際に情報検索に適応した際の検索精度の確認を行った。汎用性を確認するために、NTCIR-5 WEB 文書データセットとは違うデータセットを用いた。そのデータセットに対し検索課題から無作為に課題を選択し、検索結果上位100 件の適合率(Precision)・再現率(Recall)・F値( 2 /(1/適合率 + 1/再現率))を算出した。本論文にmodel AIC3を適用した場合と非適用した場合の表が掲載されているが、model AIC3を適用した場合の方が適合率・再現率・F値すべてにおいて有用であった。このことから、model AIC3は汎用性もあることが確認できた。

感想

  • "正解文書/不正解文書を見分けるには単語以外の要素を考慮した方が効果的である"と明白であろうと思える結果であったが、その結論に至るまでの過程で私はウェブスパムの分析に関する知見を十分に得ることができた。
  • NTCIR-5 WEB 文書データセットを私もウェブスパムの分析を行ってみたい。本論文はNTCIR-5を使用していたが、最新はNTCIR-12でありバージョンも上がっているので、よりなにか面白いことができるかもしれない。
  • 統計をkhanacademyで再度学び直そうと思った。