O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Semantic analysis and helpfulness prediction of text for online product reviews

213 visualizações

Publicada em

レビューの有用性を予測するモデルについて

Publicada em: Educação
  • Login to see the comments

  • Seja a primeira pessoa a gostar disto

Semantic analysis and helpfulness prediction of text for online product reviews

  1. 1. Semantic Analysis and Helpfulness Prediction of Text for Online Product Reviews 長岡技術科学大学 自然言語処理研究室 修士1年 西山 浩気 Yinfei Yang, YaoweiYan, Minguhui Qiu, Forrest Sheng Bao, Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, pp.38–44,Beijing, China, July 26-31, 2015.
  2. 2. 1. 概要 2  製品レビューの有用度  レコメンドシステム に利用  オンラインレビューの有用度予測モデル  テキストから2種類の意味的特徴を利用  複数のカテゴリで同程度の性能 (一般化)  人間による分類と似た分類を再現
  3. 3. 2. はじめに 3  製品レビューを利用したレコメンドシステム  人気のある商品には多数のレビューが集まる  ユーザーはその中から有用な情報を探す必要がある 有用な情報(レビュー)が優先されるシステム “Was this review helpful to you?”
  4. 4. 2. はじめ 4  先行研究 特徴として以下を利用 • 日付 [ Liu et al., 2008] • 製品の型番 [Mudambi and Schuff, 2010] レビューの有用性評価に レビュー文以外の情報が必要
  5. 5. 2. はじめ 5  提案手法 レビュー文のみから得られる特徴を利用し、 そのレビューの有用性を評価する  利点 • 感情抽出・要約 等の他タスクでも利用できる • レビューが有用かどうか以外に、なぜ有用か を示すことができる
  6. 6. Amazon Review Dataset [McAuley and Leskovec,2013]  約 35,000件、696,696レビュー(1995 – 2013年)  データセット1  4カテゴリのトップ100の製品 • 書籍・家庭(と台所)・屋外・エレクトロニクス  5件以上ユーザーから投票されているレビュー 115,880件 • 全評価のうち高評価の割合を獲得 3. 実験設定 データセットの構築 6
  7. 7. 3. 実験設定 データセットの構築 7 Amazon Review Dataset [McAuley and Leskovec,2013]  約 35,000件、696,696レビュー(1995 – 2013年)  データセット2  人手のラベル付きデータセット (公開*1)  4カテゴリトップ100の製品中  レビュー上位400個 の中から人手で100個選択  8人の学生[Bard et al., 1996] が 0~100点で評価 *1 https://sites.google.com/ site/forrestbao/acl_data.tar.bz2
  8. 8. 3. 実験設定 特徴量について 8  大きく分けて5つの特徴量を利用 (うち3つは先行手法) STR (文構造) UGR (Unigram) GALC (感情) LIWC (言語ベクトル) INQUIRER (語義) Base line
  9. 9. 3. 実験設定 特徴量について 9  大きく分けて5つの特徴量を利用 (うち3つは先行手法) STR (文構造) UGR (Unigram) GALC (感情) LIWC (言語ベクトル) INQUIRER (語義) Base line
  10. 10. 10  文構造  Unigram  GALC (Geneva Affect Label Coder)  合計トークン数  文数  文の長さの平均  エクスクラメンション マーク “!” の数  疑問文の割合  頻度3 以上の単語の Tf-Idf 値  36種類の感情表現 + 感情無し  各感情の出現回数を獲得 3. 実験設定 特徴量について
  11. 11. 3. 実験設定 特徴量について 11  大きく分けて5つの特徴量を利用 (うち3つは先行手法) STR (文構造) UGR (Unigram) GALC (感情) LIWC (言語ベクトル) INQUIRER (語義) Base line
  12. 12. 12  LIWC(Linguistic Inquiry and Word Count)  INQUIRER  Positive/Negative, 相対的, 認識過程 等の ラベルが割り振られた単語辞書  各ラベルの出現回数を特徴量として利用  General Inquirer :単語の語義タグ推定ツール  7,444単語を 182カテゴリに分類  例:absurd ( 不合理 ) TAG[ negative, vice(悪)]  各ラベルの出現回数を特徴量として利用 3. 実験設定 特徴量について
  13. 13. 4. 実験 13  有用性スコア予測 LibSVM [Chang and Lin, 2011] のRBFカーネルを用いた SVM回帰分析  2種類のラベルで評価 (交差検証) 1. ユーザーの投票から自動付与した有用度 ➢平均平方誤差(RMSE) と 相関係数 ➢どのようなレビューが有用性を持つか 2. 人手で付与した有用度 ➢人間が判断する有用なレビューとの差
  14. 14. 14 4. 実験 平均平方誤差(RMSE) と相関係数  評価指標:平均平方誤差(RMSE)  Baselineでの最高指標:Unigram  新たに加えた LIWC , INQUIRER は Unigramに 比べ8%誤差が少ない
  15. 15. 15 4. 実験 平均平方誤差(RMSE) と相関係数  評価指標:平均平方誤差(RMSE)  Fusion All(全特徴量を使用) 時 最も誤差が小さい
  16. 16. 16 4. 実験 平均平方誤差(RMSE) と 相関係数  評価指標:相関係数  LIWC または NQUIRER が高い相関係数  Fusion All が最高
  17. 17. 17 4. 実験 どのようなレビューが有用性を持つか 相関係数の高い LIWC と INQUIRER を用いて有用性を分析 出現頻度上位5次元を抽出
  18. 18. 18 4. 実験 どのようなレビューが有用性を持つか | LIWC  心理学的なプロセスを示すカテゴリ多数  参考になるレビューは、より慎重に単語を選択 相対性 時間 包括的 ポジティブ 認識プロセス
  19. 19. ✓ 消費者の個人的な経験を含む ✓ 感情 を挟まない文 19 4. 実験 どのようなレビューが有用性を持つか | INQUIRER 変化, 過程 感情欠如 道徳的評価 開始 中断 が好まれる
  20. 20. 20 4. 実験 人間が判断する有用なレビューとの差 相関係数を計算  自動付与されたラベルから推測された有用度  人手で付与した有用度
  21. 21. 21 4. 実験 人間が判断する有用なレビューとの差  FusionAllモデルで相関係数 0.7  テキストのみを見た人間の評価に近い性能
  22. 22. 22 4. 実験 人間が判断する有用なレビューとの差  Bookカテゴリでは相関が低い  主観的な意見(個人的な好み) ➢ レビューの高評価率では 有用性を評価できていない?
  23. 23. 23 5. まとめ レビューの有用性評価  レビュー本文のみを利用した手法 2種類の語義情報を用いた特徴を利用  有用性の高いレビューの傾向を可視化  より人間に近い有用性評価

×