O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Humor Recognition and Humor Anchor Extraction

8.304 visualizações

Publicada em

http://connpass.com/event/20393/

Publicada em: Tecnologia
  • Seja o primeiro a comentar

Humor Recognition and Humor Anchor Extraction

  1. 1. Humor Recognition and Humor Anchor Extraction @yag_ays 本スライドの図表は論文より引用: http://www.cs.cmu.edu/ hovy/papers/15EMNLP-humor.pdf
  2. 2. 紹介論文の概要 • Humor Recognition • 文の中にユーモアが含まれているかの二値分類 • Humor Anchor Extraction • ユーモアを表現している単語の抽出 Humor Recognition and Humor Anchor Extraction Diyi Yang et al., EMNLP2015
  3. 3. Did you hear about the guy who got hit in the head with a can of soda? He was lucky it was soft drink. Judge Thomas P. Griesa of Federal District Court in Manhattan stopped short of issuing sanction.
  4. 4. Did you hear about the guy who got hit in the head with a can of soda? He was lucky it was soft drink. Judge Thomas P. Griesa of Federal District Court in Manhattan stopped short of issuing sanction. Humor not Humor
  5. 5. Did you hear about the guy who got hit in the head with a can of soda? He was lucky it was soft drink. Judge Thomas P. Griesa of Federal District Court in Manhattan stopped short of issuing sanction. Humor not Humor
  6. 6. 背景 • ユーモアとは??? • ユーモアの統一的な定義は難しい • 言葉遊び、皮肉なども含まれる • ユーモアを理解するにはコンテキストを含め多くの知 識が必要 • The one who invented the door knocker got a No Bell prize. • Veni, Vidi, Visa: I came, I saw, I did a little shopping • My wife tells me I’m a skeptic, but I don’t believe a word she says.
  7. 7. ??? What's the difference between a nicely dressed man on a tricycle and a poorly dressed man on a bicycle? A tire.
  8. 8. HAHAHA!!! What's the difference between a nicely dressed man on a tricycle and a poorly dressed man on a bicycle? A tire. http://imgur.com/r/AdviceAnimals/o9zhzIX http://creatememe.chucklesnetwork.com/memes/113329/what-is-the-difference-between-a-nicely-dressed-man-on-a-tricycl/
  9. 9. ユーモアの二値分類
  10. 10. データセット • 正例 • Pun of the day • 16000 one-liner • 負例 • ニュース記事やYahoo! Answers、ことわざ • ドメインを統一させるためにフィルタリング • すべての単語が正例にも含まれているもの • 文の長さが10-30単語程度
  11. 11. 素性 • Incongruity:文中に反対の意味の単語や矛盾がある • word2vecを用いた単語間のベクトル表現の距離 • Ambiguity Theory:複数の単語で意味が掛かっている • WordNetを用いた単語の意味の多さ、意味の近さ • Interpersonal Effect:ユーモアを言う相手に向けたもの • 単語極性を用いた頻度、主観度合いを算出 • Phonetic Style:音韻やリズム • CMU Pronouncing Dictionaryを用いた同一頭韻数など
  12. 12. 実験 • 素性 • HCF:今回提案した素性4種類 • Bag of Words:単純なBoW • Language model:単語ごとにhumorの割合を算出 • Word2vec:各単語の意味ベクトル • SaC Ensemble:既存研究*の素性+BoW • 分類器 • ランダムフォレスト + 10-fold CV *Mihalcea and Strapparava , Making computers laugh: Investigations in automatic humor recognition.
  13. 13. 結果 • Word2vec+HCFの組み合わせが最も良い • Word2vecと各種素性の組み合わせで、ユーモアの 構造と各単語の意味の両方をカバーできている(?)
  14. 14. ユーモア表現の抽出
  15. 15. ユーモア表現の抽出 • 品詞単位で抜き出して候補とする • ある候補セットを取り除いて二値分類にかけたとき に元文とのスコアの差が大きいものを選択する
  16. 16. 実験 • データセット • 2種類のデータセットでそれぞれ200個をサンプ リングして3人のアノテーターによりラベル付け • ベースライン • Random:ランダムに単語を抜き出し • POS:特定の品詞を抜き出したのちサンプリング • 評価手法 • 完全一致か部分一致 (EX / ALO)
  17. 17. 評価手法に依らず提案手法が最も良い結果 データ セット2 データ セット1 MDE: 提案手法 POS: 品詞ベースで選択 Random: ランダム EX: 完全一致 ALO: 部分一致
  18. 18. まとめ • ユーモアの二値分類 • ユーモアを4つに分類しそれぞれ素性を作成 • 文の中での各単語の意味の類似度や極性、音韻といっ た情報 • word2vec + 提案した素性が最も良い結果 • ユーモア表現の抽出 • 候補となる単語を取り除いてユーモアと判定されなく なるものを選択

×