O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Are emojis predictable

187 visualizações

Publicada em

Tweet文から、その文に合った顔文字を選択する

Publicada em: Educação
  • Login to see the comments

  • Seja a primeira pessoa a gostar disto

Are emojis predictable

  1. 1. Are Emojis Predictable? 長岡技術科学大学 自然言語処理研究室 修士1年 西山 浩気 Francesco Barbieri, Miguel Ballesteros, Horacio Saggion, Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, vol.2, pp.105-111, Valencia, Spain, April 3-7, 2017.
  2. 2.  ツイート文から絵文字を予測する  いくつかのLSTMモデルを用いて検証 結果として  Baseline を上回る精度  絵文字の意味を比較的高く把握できる モデルを構築 1. 概要 2
  3. 3. ソーシャルメディアの出現 視覚的な機能を持った絵文字が使用される 2. 絵文字について はじめに 3
  4. 4. 感情推定タスク [Novak et al, 2015], [Miller, 2016] 人工知能がより自然言語を理解するためには、 相手の感情を予測する必要がある  絵文字は複数の意味を持つ可能性がある 絵文字は感情を推定する上で重要な情報 2. 先行研究 はじめに 4
  5. 5. 感情推定タスク [Novak et al, 2015], [Miller, 2016] 人工知能がより自然言語を理解するためには、 相手の感情を予測する必要がある  絵文字は複数の意味を持つ可能性がある テキストから絵文字を予測できる ならば 感情推定の精度向上が見込める 2. 先行研究 はじめに 5
  6. 6. この論文では Twitterメッセージから、 推定される可能性の高い絵文字を自動予測 Bidirectional Long Short-Term Memory Network (BLSTMs) を用いる  双方向の出力を考慮するLSTM  このモデルがBag-of-Words, 人手よりも性能 が優れていることを実証する 2. 目的 はじめに 6
  7. 7. ✓顔文字が1つ出現するツイートのみを抽出 ✓ツイートからハイパーリンクを削除 ✓ノイズ低減のために、全て小文字に変換 4,000万ツイート 前処理 3. データセット 7 アメリカで 2015年10月~2016年5月 につぶやかれたデータ
  8. 8. 4,000万ツイート 絵文字の頻度上位N個が含まれているツイートを取得(3つ) 3. データセット 8 アメリカで 2015年10月~2016年5月 につぶやかれたデータ 1000ツイート中の出現頻度
  9. 9. 4,000万ツイート 絵文字の頻度上位N個が含まれているツイートを取得(3つ) 3. データセット 9 アメリカで 2015年10月~2016年5月 につぶやかれたデータ 頻度上位N データセット中のツイート数 20 584,600 10 502,700 5 341,500
  10. 10. 入力 100次元にEmbeddingした単語ベクトル 出力 絵文字を表すベクトル 4.1 Bi-Directional LSTMs 使用するモデル 10 先行研究との差 RNNは単語の並びから、文脈全体を考慮できる
  11. 11. ツイートが与えられたときに絵文字eが生成される確率 𝑝 𝑒 𝒔 = exp(𝒈 𝑒 ⊺+𝑞 𝑒) σ 𝑒′∈ε exp(𝒈 𝑒′ ⊺+𝑞 𝑒′) 𝒈 𝑒:絵文字をEmbeddingしたベクトル e :絵文字 ε:高頻度の絵文字リスト 𝑞 𝑒:バイアス項 s:絵文字の生成確率計算用パラメータ 𝑠 = max {0, W[fw; bw] + d} 𝑤: 重み 𝑓𝑤: 順方向𝐿𝑆𝑇𝑀 𝑏𝑤: 逆方向𝐿𝑆𝑇𝑀 𝑑: バイアス 4.1 Bi-Directional LSTMs 使用するモデル 11
  12. 12.  訓練データに一度しか出現しない単語は固有表現  事前学習された単語ベクトルを用いる場合は、 固有表現ベクトルを加える [Dyer et al. 2015] 入力 100次元にEmbeddingした単語ベクトル 出力 絵文字を表すベクトル 4.1 Bi-Directional LSTMs 使用するモデル 12
  13. 13. ベースラインは2つ 1. Bag-of-Words  句読点を含む単語の頻度でベクトル化  L2ロジスティック回帰を利用して予測 2. Skip-Gram Vector Average 4.2 ベースライン 使用するモデル 13
  14. 14. ベースラインは2つ 1. Bag-of-Words 2. Skip-Gram Vector Average ツイートをVmで表す 𝑉𝑚 = σ 𝑡∈𝑇 𝑚 𝑆𝑡 |𝑇 𝑚| 𝑚: ツイート 𝑇 𝑚: トークン数, 𝑇: トークン 𝑆𝑡: 𝑠𝑘𝑖𝑝 − 𝑔𝑟𝑎𝑚モデル 4.2 ベースライン 使用するモデル 14
  15. 15. 実験は2つ 1. モデルの評価 (baselineとの比較) 2. 提案モデルと人間との比較 データセット  訓練データ(8割)  開発データ(1割)  テストデータ(1割) 5. 実験と評価 実験の概要 15
  16. 16. 比較対象 (baseline2つ, 提案4つ)  Baseline (BoW, Skip-gramAVG)  Bi-LSTM  WordEmbedding  事前学習 する / しない  CharacterEmbedding  事前学習 する / しない 5. モデルの比較 実験と評価 16 EnglishGigawordコーパス, version5
  17. 17. 全てのコーパスにおいて 事前学習したCharacter Embeddingが有効 5. モデルの比較 実験と評価 17
  18. 18. Baselineとの比較 : LSTMの性能が優れていた理由 BoW, Skip-gramAVG ➢ 明確にある単語と絵文字の関係を表す Bi-LSTM ➢ ツイートの文脈を通した関係を表す ➢ 文字 5. モデルの比較 実験と評価 18 例 : love と
  19. 19. [Miller et al. 2016] 人間は絵文字に対して複数の解釈をする そのため、 同じタスクに対して機械と人間で性能を比較 5. モデルの品質評価 評価と実験 20
  20. 20. ランダムに1,000ツイート獲得 5. モデルの品質評価 評価と実験 21 頻度上位5つの顔文字が含まれるテストセット 1ツイート 4人が評価 5つの顔文字から最も適した顔文字を選択 クラウドソーシング[CrowdFlower]
  21. 21. 人間とB-LSTMを比較  平均すると B-LSTMの性能が高い  ではB-LSTMの性能が低い なぜ? 5. モデルの品質評価 評価と実験 22
  22. 22. Confusion Matrix で比較  を予測する際に、疑わしいものは 5. モデルの品質評価 評価と実験 23
  23. 23. ツイートに対して、 最も関連性の高い絵文字を予測するモデル を提案  人間よりも優れた結果  絵文字の使用を一般化できる 今後は まとめ 24 複数の絵文字を同時に推定 顔文字が挿入される位置を推定

×