SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
GLOVE: GLOBAL VECTORS
FOR WORD REPRESENTATION
GloVe: Global Vectors for Word Representation 1
Jeffrey Pennington, Richard Socher,
Christopher D. Manning
EMNLP 2014, pages 1532–1543.
読み手: 岡崎 直観
(P3を除き,スライド中の表・図はすべて元論文の引用)
Pennington+ (2014)
ハイライト
• ベクトルの加減算で意味の合成を行うため
にモデルが持つべき特徴を解析した
• 二乗誤差最小化に基づくモデルを提案
• 提案手法は複数のタスクで高い精度を達成
• 単語アナロジータスクでは75%の正解率
• http://nlp.stanford.edu/projects/glove/
Pennington+ (2014) GloVe: Global Vectors for Word Representation 2
最小二乗法による単語ベクトルの学習
Pennington+ (2014) GloVe: Global Vectors for Word Representation 3
𝐽 =
𝑖,𝑗=1
𝑉
𝑓(𝑋𝑖,𝑗) (𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗)2
目的関数:
𝑓 𝑥 =
(𝑥/𝑥max) 𝛼 (if 𝑥 < 𝑥max)
1 (otherwise)
単語𝑖と単語𝑗の共起頻度単語の総数
単語𝑖のベクトル
単語𝑗のベクトル‘
単語𝑖のバイアス項
単語𝑗のバイアス項’
1系統
2系統
※各単語に対してパラメタが2系統あるのは
word2vecと同様.本研究は単語𝑖のベクトルを
最終的に(𝒘𝑖 + 𝒘𝑖)とする(精度が向上するらしい)
𝑥 𝑚𝑎𝑥 = 100, α = 0.75 の場合 →
AdaGrad
(SGD)で学習
𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(1/4)
• 単語𝑖と単語𝑗のある側面(aspect)における関係
を,文脈単語𝑘で表すことを考える
• 例: 「熱力学」におけるiceとsteam
• 𝑃𝑖,𝑘 = 𝑃(𝑘|𝑖)よりも𝑃𝑖,𝑘/𝑃𝑗,𝑘の方が単語𝑖と単語𝑗の
特徴を捉える文脈として有用そう
• 例: waterやfashionよりもsolidやgasの方が有用
Pennington+ (2014) GloVe: Global Vectors for Word Representation 4
𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(2/4)
• 単語𝑖, 𝑗, 𝑘のベクトルをそれぞれ𝒘𝑖, 𝒘𝑗, 𝒘 𝑘とする
• 単語ベクトルで𝑃𝑖,𝑘/𝑃𝑗,𝑘を表現するには,
𝐹 𝒘𝑖 − 𝒘𝑗, 𝒘 𝑘 = 𝑃𝑖,𝑘/𝑃𝑗,𝑘
• 左辺の引数(ベクトル)と右辺(スカラー)の型
を合わせるための最もシンプルな方法は,
𝐹 𝒘𝑖 − 𝒘𝑗
𝑇
𝒘 𝑘 = 𝑃𝑖,𝑘/𝑃𝑗,𝑘
Pennington+ (2014) GloVe: Global Vectors for Word Representation 5
単語𝑖と単語𝑗の特徴の対比をベクトルの
差で表現(加法構成性を予め考慮)
関数の形は
これから絞り込む 𝒘 𝑘とは別系統のベクトル
内積をとってスカラー値にする
𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(3/4)
• 単語と文脈の役割は入れ替えが可能であるべき
• 𝒘𝑖 ↔ 𝒘𝑖と𝑋 ↔ 𝑋 𝑇の入れ替えを同時に考慮すべき
• 𝐹として加法群から乗法群への準同型写像
exp: ℝ → ℝ+を採用する
exp 𝒘𝑖 − 𝒘𝑗
𝑇
𝒘 𝑘 =
exp 𝒘𝑖
𝑇
𝒘 𝑘
exp 𝒘𝑗
𝑇
𝒘 𝑘
=
𝑃𝑖,𝑘
𝑃𝑗,𝑘
• したがって,
exp 𝒘𝑖
𝑇
𝒘 𝑘 = 𝑃𝑖,𝑘 = 𝑋𝑖,𝑘/𝑋𝑖
• 両辺の対数をとると,
𝒘𝑖
𝑇
𝒘 𝑘 = log 𝑋𝑖,𝑘 − log 𝑋𝑖
Pennington+ (2014) GloVe: Global Vectors for Word Representation 6
𝒘𝑖
𝑇
𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(4/4)
• まだ単語と文脈の入れ替えができない
𝒘𝑖
𝑇
𝒘 𝑘 = log 𝑋𝑖,𝑘 − log 𝑋𝑖
• 𝑘に関する定数項がないため
• log 𝑋𝑖をバイアス項𝑏𝑖で表し,新たに𝑘に関
するバイアス項 𝑏 𝑘を導入
𝒘𝑖
𝑇
𝒘 𝑘 = log 𝑋𝑖,𝑘 − 𝑏𝑖 − 𝑏 𝑘
𝒘𝑖
𝑇
𝒘 𝑘 + 𝑏𝑖 + 𝑏 𝑘 = log 𝑋𝑖,𝑘
Pennington+ (2014) GloVe: Global Vectors for Word Representation 7
𝑓(𝑋𝑖,𝑗)で重み付けする理由
• 𝑋𝑖,𝑗 = 0のときlog 𝑋𝑖,𝑗が計算できない
• 共起行列𝑋の要素はほとんどが0(疎行列)
• 影響力を0とする
• 低頻度の共起頻度は重視しない
• 低頻度な共起事象をベクトルで符号化するのは大変
• 𝑋𝑖,𝑗 < 𝑥maxならば影響力を(𝑋𝑖,𝑗/𝑥max) 𝛼
とする
• 高頻度の共起要素も重視しすぎない
• 高頻度な共起事象は平等にベクトルで符号化
• 𝑋𝑖,𝑗 ≥ 𝑥maxならば影響力を1とする
Pennington+ (2014) GloVe: Global Vectors for Word Representation 8
Skip-gramやivLBLとの関係 (1/2)
• 目的関数は,
𝐽 = −
𝑖∈𝑐𝑜𝑟𝑝𝑢𝑠,
𝑗∈𝑐𝑜𝑛𝑡𝑒𝑥𝑡 𝑖
log 𝑄𝑖,𝑗 ,𝑄𝑖,𝑗 =
exp 𝒘𝑖
𝑇
𝒘𝑗
𝑘=1
𝑉
exp 𝒘𝑖
𝑇
𝒘 𝑘
• 繰り返し出現する単語・文脈ペアをまとめると,
𝐽 = −
𝑖=1
𝑉
𝑗=1
𝑉
𝑋𝑖,𝑗 log 𝑄𝑖,𝑗
• 𝑋𝑖,𝑗 = 𝑋𝑖 𝑃𝑖,𝑗であるから,
𝐽 = −
𝑖=1
𝑉
𝑋𝑖
𝑗=1
𝑉
𝑃𝑖,𝑗 log 𝑄𝑖,𝑗 =
𝑖=1
𝑉
𝑋𝑖 𝐻(𝑃𝑖, 𝑄𝑖)
Pennington+ (2014) GloVe: Global Vectors for Word Representation 9
クロスエントロピー
Skip-gramやivLBLとの関係 (2/2)
• Skip-gramやivLBLは確率分布𝑃𝑖と𝑄𝑖のクロスエン
トロピーを最小化している
• クロスエントロピーはロングテールな分布に向かない
(低頻度な事象を考慮しすぎる)
• 𝑄𝑖は確率分布として正規化されるべき
• 実際には𝑄𝑖の分母の計算が大変なので正規化されない(近似)
• 提案手法: 二乗誤差で確率分布の距離を計算
𝐽 =
𝑖,𝑗=1
𝑉
𝑋𝑖 𝑃𝑖,𝑗 − 𝑄𝑖,𝑗
2
, 𝑃𝑖,𝑗 = 𝑋𝑖,𝑗, 𝑄𝑖,𝑗 = exp 𝒘𝑖
𝑇
𝒘𝑗
• 実態は対数の二乗誤差: 𝑃𝑖,𝑗 = log 𝑋𝑖,𝑗 , 𝑄𝑖,𝑗 = 𝒘𝑖
𝑇
𝒘𝑗
Pennington+ (2014) GloVe: Global Vectors for Word Representation 10
評価データ
• Word analogy (Mikolov+ 13)
• “a is to b as c is to d?”
• (a, b, c, d) = (Athens, Greece, Berlin, Germany)
• d: 𝒘 𝑏 − 𝒘 𝑎 + 𝒘 𝑐とのコサイン類似度が最も高い単語
• Word similarity
• WordSim-353 (Finkelstein+ 01), MC (Miller+ 91), RG
(Rubenstein+ 65), SCWS (Huang+ 12), RW (Luong+ 13)
• 固有表現抽出(CoNLL-2003, ACE, MUC7)
• CRFの素性に50次元の単語ベクトルの値を追加
Pennington+ (2014) GloVe: Global Vectors for Word Representation 11
実験設定
• 訓練データ(トークン数)
• 1.0B: 2010 Wikipedia dump
• 1.6B: 2014 Wikipedia dump
• 4.3B: Gigaword 5
• 6.0B: Gigaword 5 + 2014 Wikipedia dump
• 42B: Web文書(Common Crawl)
• 単語-文脈共起行列の構築
• Stanford tokenizer, 小文字化の後,高頻度な400,000単語を採用
• 単語の左側の10単語と右側の10単語を文脈語とする
• 単語と文脈語の距離𝑑に応じて出現頻度を1/𝑑とする
• 学習時のパラメータ
• 𝑥max = 100, α = 0.75, AdaGradの初期学習率0.05
• 反復回数は50回(300次元未満の場合)もしくは100回
• (𝒘𝑖 + 𝒘𝑖)を単語ベクトルとする
• 本来,共起行列𝑋が対称行列なら𝒘𝑖と 𝒘𝑖は等価になるはず
• 複数の学習結果を統合することでノイズ耐性が向上すると期待
• (𝒘𝑖 + 𝒘𝑖)による性能の向上は僅かだが,word analogyでは劇的な向上
Pennington+ (2014) GloVe: Global Vectors for Word Representation 12
ベースライン手法
• Skip-gram (SG), Continuous BOW (CBOW)
• word2vecの実装を利用
• 学習対象は400,000単語,文脈幅10単語,10単語を負例とし
てサンプル
• SVD
• 学習対象を10,000単語まで絞り込む
• SVD: 𝑋𝑖,𝑗
• SVD-S: 𝑋𝑖,𝑗
• SVD-L: log(1 + 𝑋𝑖,𝑗)
• (i)vLBLの結果は論文(Mnih+ 13)から
• HPCAは公開されている単語ベクトルを用いた
Pennington+ (2014) GloVe: Global Vectors for Word Representation 13
Word analogyタスクの精度
• GloVeの圧勝
• データ量を増やすことで精
度が向上している
• word2vecも他の論文で
報告されている数値より
も良かった
• 不利なパラメータを選んだ
訳ではない
• SVDはデータ量を増やし
ても精度が上がらない
Pennington+ (2014) GloVe: Global Vectors for Word Representation 14
Word similarityの実験結果
Pennington+ (2014) GloVe: Global Vectors for Word Representation 15
固有表現抽出の実験結果
Pennington+ (2014) GloVe: Global Vectors for Word Representation 16
次元数とウィンドウ幅と精度の関係
(Word analogyタスク)
• 200次元あたりから精度の改善が鈍る
• (読み手注)かなり安定した実験結果に見える
• Syntactic analogyよりもsemantic analogyの方が広い文脈が必要
• Syntactic analogyではasymmetricな文脈の方がよい(語順の考慮)
• symmetric: 左右両側から文脈語を取る
• asymmetric: 左側から文脈語を取る
Pennington+ (2014) GloVe: Global Vectors for Word Representation 17
学習データ量と精度の関係
Pennington+ (2014) GloVe: Global Vectors for Word Representation 18
Semanticなタスクではコーパスのドメインと
評価データのドメインの一致度合いが影響
学習時間と精度の関係
• GloVeの学習時間: 85分で共起行列を計算(1コア),14分で1反復(32コア)
• 6Bのコーパスを利用時,プロセッサはdual 2.1GHz Intel Xeon E5-2658
• (読み手注)word2vecの学習時間を負例サンプル数で制御するのは不公平
Pennington+ (2014) GloVe: Global Vectors for Word Representation 19
結論
• 二乗誤差最小化に基づくモデルを提案
• 提案手法は3つのタスクでword2vecを上回
る性能を示した
• Countベースの手法もpredictionベースの手
法も理論的に関連を見出すことができる
• (読み手注)”Don’t count. Predict!” (Baroni+
14) への反論
Pennington+ (2014) GloVe: Global Vectors for Word Representation 20
感想
• ベクトルの加法構成性から議論を組み立て
• シンプルで自然な定式化
• 共起行列を単語ベクトルで表現する
• Skip-gramの目的関数との対比も興味深い
• 安定した高い精度
• 𝒘𝑖は単語から文脈の分布, 𝒘𝑖は文脈から単
語の分布をモデル化という見方も興味深い
• 公開されているコードも読みやすい
Pennington+ (2014) GloVe: Global Vectors for Word Representation 21

Mais conteúdo relacionado

Mais procurados

深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論Naoaki Okazaki
 
【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and DocumentsTomofumi Yoshida
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題joisino
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsMakoto Takenaka
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word EmbeddingMakoto Takenaka
 
NeurIPS2020参加報告
NeurIPS2020参加報告NeurIPS2020参加報告
NeurIPS2020参加報告Sho Takase
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shiftMakoto Takenaka
 
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)Yusuke Iwasawa
 
トピックモデル
トピックモデルトピックモデル
トピックモデル貴之 八木
 
Lexical Inference over Multi-Word Predicates
Lexical Inference over Multi-Word PredicatesLexical Inference over Multi-Word Predicates
Lexical Inference over Multi-Word PredicatesSho Takase
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKoji Matsuda
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentationRoy Ray
 
NLP2015 構成性に基づく関係パタンの意味計算
NLP2015 構成性に基づく関係パタンの意味計算NLP2015 構成性に基づく関係パタンの意味計算
NLP2015 構成性に基づく関係パタンの意味計算Sho Takase
 
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試みHitomi Yanaka
 

Mais procurados (20)

深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents
 
Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
数式からみるWord2Vec
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
[NeurIPS2018読み会@PFN] On the Dimensionality of Word Embedding
 
NeurIPS2020参加報告
NeurIPS2020参加報告NeurIPS2020参加報告
NeurIPS2020参加報告
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
Deep neural models of semantic shift
Deep neural models of semantic shiftDeep neural models of semantic shift
Deep neural models of semantic shift
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
Lexical Inference over Multi-Word Predicates
Lexical Inference over Multi-Word PredicatesLexical Inference over Multi-Word Predicates
Lexical Inference over Multi-Word Predicates
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
NLP2015 構成性に基づく関係パタンの意味計算
NLP2015 構成性に基づく関係パタンの意味計算NLP2015 構成性に基づく関係パタンの意味計算
NLP2015 構成性に基づく関係パタンの意味計算
 
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
 

Destaque

研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Naoaki Okazaki
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPNaoaki Okazaki
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsNaoaki Okazaki
 
Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Naoaki Okazaki
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Naoaki Okazaki
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習Naoaki Okazaki
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習Yuki Noguchi
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 

Destaque (9)

研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLP
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problems
 
Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 

Semelhante a Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word representation

Improving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word EmbeddingsImproving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word EmbeddingsHiroki Nakayama
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスShintaro Takemura
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05sekizawayuuki
 
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...Shohei Okada
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...Association for Computational Linguistics
 
論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得swenbe
 
Paraphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseParaphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseswenbe
 
Probabilistic fasttext for multi sense word embeddings
 Probabilistic fasttext for multi sense word embeddings Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddingsMakoto Takenaka
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門Yu Tamura
 
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaスペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaHiroyoshi Komatsu
 
Generalized data augmentation for low resource translation
Generalized data augmentation for low resource translationGeneralized data augmentation for low resource translation
Generalized data augmentation for low resource translationplatinum-vallay
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺についてKeisuke Hosaka
 
Hangyo emnlp paperreading2016
Hangyo emnlp paperreading2016Hangyo emnlp paperreading2016
Hangyo emnlp paperreading2016Hangyo Masatsugu
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxNatsumi KOBAYASHI
 
Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesSatoru Katsumata
 

Semelhante a Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word representation (20)

Improving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word EmbeddingsImproving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word Embeddings
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
読解支援@2015 06-05
読解支援@2015 06-05読解支援@2015 06-05
読解支援@2015 06-05
 
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
Jinan Xu - 2015 - Integrating Case Frame into Japanese to Chinese Hierarchica...
 
論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得論文紹介:WWWからの大規模動詞含意知識の獲得
論文紹介:WWWからの大規模動詞含意知識の獲得
 
Paraphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japaneseParaphrasing rules for automatic evaluation of translation into japanese
Paraphrasing rules for automatic evaluation of translation into japanese
 
Probabilistic fasttext for multi sense word embeddings
 Probabilistic fasttext for multi sense word embeddings Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddings
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
 
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaスペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronama
 
Generalized data augmentation for low resource translation
Generalized data augmentation for low resource translationGeneralized data augmentation for low resource translation
Generalized data augmentation for low resource translation
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
Hangyo emnlp paperreading2016
Hangyo emnlp paperreading2016Hangyo emnlp paperreading2016
Hangyo emnlp paperreading2016
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
Guiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation piecesGuiding neural machine translation with retrieved translation pieces
Guiding neural machine translation with retrieved translation pieces
 

Último

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Último (10)

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word representation

  • 1. GLOVE: GLOBAL VECTORS FOR WORD REPRESENTATION GloVe: Global Vectors for Word Representation 1 Jeffrey Pennington, Richard Socher, Christopher D. Manning EMNLP 2014, pages 1532–1543. 読み手: 岡崎 直観 (P3を除き,スライド中の表・図はすべて元論文の引用) Pennington+ (2014)
  • 2. ハイライト • ベクトルの加減算で意味の合成を行うため にモデルが持つべき特徴を解析した • 二乗誤差最小化に基づくモデルを提案 • 提案手法は複数のタスクで高い精度を達成 • 単語アナロジータスクでは75%の正解率 • http://nlp.stanford.edu/projects/glove/ Pennington+ (2014) GloVe: Global Vectors for Word Representation 2
  • 3. 最小二乗法による単語ベクトルの学習 Pennington+ (2014) GloVe: Global Vectors for Word Representation 3 𝐽 = 𝑖,𝑗=1 𝑉 𝑓(𝑋𝑖,𝑗) (𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗)2 目的関数: 𝑓 𝑥 = (𝑥/𝑥max) 𝛼 (if 𝑥 < 𝑥max) 1 (otherwise) 単語𝑖と単語𝑗の共起頻度単語の総数 単語𝑖のベクトル 単語𝑗のベクトル‘ 単語𝑖のバイアス項 単語𝑗のバイアス項’ 1系統 2系統 ※各単語に対してパラメタが2系統あるのは word2vecと同様.本研究は単語𝑖のベクトルを 最終的に(𝒘𝑖 + 𝒘𝑖)とする(精度が向上するらしい) 𝑥 𝑚𝑎𝑥 = 100, α = 0.75 の場合 → AdaGrad (SGD)で学習
  • 4. 𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(1/4) • 単語𝑖と単語𝑗のある側面(aspect)における関係 を,文脈単語𝑘で表すことを考える • 例: 「熱力学」におけるiceとsteam • 𝑃𝑖,𝑘 = 𝑃(𝑘|𝑖)よりも𝑃𝑖,𝑘/𝑃𝑗,𝑘の方が単語𝑖と単語𝑗の 特徴を捉える文脈として有用そう • 例: waterやfashionよりもsolidやgasの方が有用 Pennington+ (2014) GloVe: Global Vectors for Word Representation 4
  • 5. 𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(2/4) • 単語𝑖, 𝑗, 𝑘のベクトルをそれぞれ𝒘𝑖, 𝒘𝑗, 𝒘 𝑘とする • 単語ベクトルで𝑃𝑖,𝑘/𝑃𝑗,𝑘を表現するには, 𝐹 𝒘𝑖 − 𝒘𝑗, 𝒘 𝑘 = 𝑃𝑖,𝑘/𝑃𝑗,𝑘 • 左辺の引数(ベクトル)と右辺(スカラー)の型 を合わせるための最もシンプルな方法は, 𝐹 𝒘𝑖 − 𝒘𝑗 𝑇 𝒘 𝑘 = 𝑃𝑖,𝑘/𝑃𝑗,𝑘 Pennington+ (2014) GloVe: Global Vectors for Word Representation 5 単語𝑖と単語𝑗の特徴の対比をベクトルの 差で表現(加法構成性を予め考慮) 関数の形は これから絞り込む 𝒘 𝑘とは別系統のベクトル 内積をとってスカラー値にする
  • 6. 𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(3/4) • 単語と文脈の役割は入れ替えが可能であるべき • 𝒘𝑖 ↔ 𝒘𝑖と𝑋 ↔ 𝑋 𝑇の入れ替えを同時に考慮すべき • 𝐹として加法群から乗法群への準同型写像 exp: ℝ → ℝ+を採用する exp 𝒘𝑖 − 𝒘𝑗 𝑇 𝒘 𝑘 = exp 𝒘𝑖 𝑇 𝒘 𝑘 exp 𝒘𝑗 𝑇 𝒘 𝑘 = 𝑃𝑖,𝑘 𝑃𝑗,𝑘 • したがって, exp 𝒘𝑖 𝑇 𝒘 𝑘 = 𝑃𝑖,𝑘 = 𝑋𝑖,𝑘/𝑋𝑖 • 両辺の対数をとると, 𝒘𝑖 𝑇 𝒘 𝑘 = log 𝑋𝑖,𝑘 − log 𝑋𝑖 Pennington+ (2014) GloVe: Global Vectors for Word Representation 6
  • 7. 𝒘𝑖 𝑇 𝒘𝑗 + 𝑏𝑖 + 𝑏𝑗 − log 𝑋𝑖,𝑗 の理由(4/4) • まだ単語と文脈の入れ替えができない 𝒘𝑖 𝑇 𝒘 𝑘 = log 𝑋𝑖,𝑘 − log 𝑋𝑖 • 𝑘に関する定数項がないため • log 𝑋𝑖をバイアス項𝑏𝑖で表し,新たに𝑘に関 するバイアス項 𝑏 𝑘を導入 𝒘𝑖 𝑇 𝒘 𝑘 = log 𝑋𝑖,𝑘 − 𝑏𝑖 − 𝑏 𝑘 𝒘𝑖 𝑇 𝒘 𝑘 + 𝑏𝑖 + 𝑏 𝑘 = log 𝑋𝑖,𝑘 Pennington+ (2014) GloVe: Global Vectors for Word Representation 7
  • 8. 𝑓(𝑋𝑖,𝑗)で重み付けする理由 • 𝑋𝑖,𝑗 = 0のときlog 𝑋𝑖,𝑗が計算できない • 共起行列𝑋の要素はほとんどが0(疎行列) • 影響力を0とする • 低頻度の共起頻度は重視しない • 低頻度な共起事象をベクトルで符号化するのは大変 • 𝑋𝑖,𝑗 < 𝑥maxならば影響力を(𝑋𝑖,𝑗/𝑥max) 𝛼 とする • 高頻度の共起要素も重視しすぎない • 高頻度な共起事象は平等にベクトルで符号化 • 𝑋𝑖,𝑗 ≥ 𝑥maxならば影響力を1とする Pennington+ (2014) GloVe: Global Vectors for Word Representation 8
  • 9. Skip-gramやivLBLとの関係 (1/2) • 目的関数は, 𝐽 = − 𝑖∈𝑐𝑜𝑟𝑝𝑢𝑠, 𝑗∈𝑐𝑜𝑛𝑡𝑒𝑥𝑡 𝑖 log 𝑄𝑖,𝑗 ,𝑄𝑖,𝑗 = exp 𝒘𝑖 𝑇 𝒘𝑗 𝑘=1 𝑉 exp 𝒘𝑖 𝑇 𝒘 𝑘 • 繰り返し出現する単語・文脈ペアをまとめると, 𝐽 = − 𝑖=1 𝑉 𝑗=1 𝑉 𝑋𝑖,𝑗 log 𝑄𝑖,𝑗 • 𝑋𝑖,𝑗 = 𝑋𝑖 𝑃𝑖,𝑗であるから, 𝐽 = − 𝑖=1 𝑉 𝑋𝑖 𝑗=1 𝑉 𝑃𝑖,𝑗 log 𝑄𝑖,𝑗 = 𝑖=1 𝑉 𝑋𝑖 𝐻(𝑃𝑖, 𝑄𝑖) Pennington+ (2014) GloVe: Global Vectors for Word Representation 9 クロスエントロピー
  • 10. Skip-gramやivLBLとの関係 (2/2) • Skip-gramやivLBLは確率分布𝑃𝑖と𝑄𝑖のクロスエン トロピーを最小化している • クロスエントロピーはロングテールな分布に向かない (低頻度な事象を考慮しすぎる) • 𝑄𝑖は確率分布として正規化されるべき • 実際には𝑄𝑖の分母の計算が大変なので正規化されない(近似) • 提案手法: 二乗誤差で確率分布の距離を計算 𝐽 = 𝑖,𝑗=1 𝑉 𝑋𝑖 𝑃𝑖,𝑗 − 𝑄𝑖,𝑗 2 , 𝑃𝑖,𝑗 = 𝑋𝑖,𝑗, 𝑄𝑖,𝑗 = exp 𝒘𝑖 𝑇 𝒘𝑗 • 実態は対数の二乗誤差: 𝑃𝑖,𝑗 = log 𝑋𝑖,𝑗 , 𝑄𝑖,𝑗 = 𝒘𝑖 𝑇 𝒘𝑗 Pennington+ (2014) GloVe: Global Vectors for Word Representation 10
  • 11. 評価データ • Word analogy (Mikolov+ 13) • “a is to b as c is to d?” • (a, b, c, d) = (Athens, Greece, Berlin, Germany) • d: 𝒘 𝑏 − 𝒘 𝑎 + 𝒘 𝑐とのコサイン類似度が最も高い単語 • Word similarity • WordSim-353 (Finkelstein+ 01), MC (Miller+ 91), RG (Rubenstein+ 65), SCWS (Huang+ 12), RW (Luong+ 13) • 固有表現抽出(CoNLL-2003, ACE, MUC7) • CRFの素性に50次元の単語ベクトルの値を追加 Pennington+ (2014) GloVe: Global Vectors for Word Representation 11
  • 12. 実験設定 • 訓練データ(トークン数) • 1.0B: 2010 Wikipedia dump • 1.6B: 2014 Wikipedia dump • 4.3B: Gigaword 5 • 6.0B: Gigaword 5 + 2014 Wikipedia dump • 42B: Web文書(Common Crawl) • 単語-文脈共起行列の構築 • Stanford tokenizer, 小文字化の後,高頻度な400,000単語を採用 • 単語の左側の10単語と右側の10単語を文脈語とする • 単語と文脈語の距離𝑑に応じて出現頻度を1/𝑑とする • 学習時のパラメータ • 𝑥max = 100, α = 0.75, AdaGradの初期学習率0.05 • 反復回数は50回(300次元未満の場合)もしくは100回 • (𝒘𝑖 + 𝒘𝑖)を単語ベクトルとする • 本来,共起行列𝑋が対称行列なら𝒘𝑖と 𝒘𝑖は等価になるはず • 複数の学習結果を統合することでノイズ耐性が向上すると期待 • (𝒘𝑖 + 𝒘𝑖)による性能の向上は僅かだが,word analogyでは劇的な向上 Pennington+ (2014) GloVe: Global Vectors for Word Representation 12
  • 13. ベースライン手法 • Skip-gram (SG), Continuous BOW (CBOW) • word2vecの実装を利用 • 学習対象は400,000単語,文脈幅10単語,10単語を負例とし てサンプル • SVD • 学習対象を10,000単語まで絞り込む • SVD: 𝑋𝑖,𝑗 • SVD-S: 𝑋𝑖,𝑗 • SVD-L: log(1 + 𝑋𝑖,𝑗) • (i)vLBLの結果は論文(Mnih+ 13)から • HPCAは公開されている単語ベクトルを用いた Pennington+ (2014) GloVe: Global Vectors for Word Representation 13
  • 14. Word analogyタスクの精度 • GloVeの圧勝 • データ量を増やすことで精 度が向上している • word2vecも他の論文で 報告されている数値より も良かった • 不利なパラメータを選んだ 訳ではない • SVDはデータ量を増やし ても精度が上がらない Pennington+ (2014) GloVe: Global Vectors for Word Representation 14
  • 15. Word similarityの実験結果 Pennington+ (2014) GloVe: Global Vectors for Word Representation 15
  • 16. 固有表現抽出の実験結果 Pennington+ (2014) GloVe: Global Vectors for Word Representation 16
  • 17. 次元数とウィンドウ幅と精度の関係 (Word analogyタスク) • 200次元あたりから精度の改善が鈍る • (読み手注)かなり安定した実験結果に見える • Syntactic analogyよりもsemantic analogyの方が広い文脈が必要 • Syntactic analogyではasymmetricな文脈の方がよい(語順の考慮) • symmetric: 左右両側から文脈語を取る • asymmetric: 左側から文脈語を取る Pennington+ (2014) GloVe: Global Vectors for Word Representation 17
  • 18. 学習データ量と精度の関係 Pennington+ (2014) GloVe: Global Vectors for Word Representation 18 Semanticなタスクではコーパスのドメインと 評価データのドメインの一致度合いが影響
  • 19. 学習時間と精度の関係 • GloVeの学習時間: 85分で共起行列を計算(1コア),14分で1反復(32コア) • 6Bのコーパスを利用時,プロセッサはdual 2.1GHz Intel Xeon E5-2658 • (読み手注)word2vecの学習時間を負例サンプル数で制御するのは不公平 Pennington+ (2014) GloVe: Global Vectors for Word Representation 19
  • 20. 結論 • 二乗誤差最小化に基づくモデルを提案 • 提案手法は3つのタスクでword2vecを上回 る性能を示した • Countベースの手法もpredictionベースの手 法も理論的に関連を見出すことができる • (読み手注)”Don’t count. Predict!” (Baroni+ 14) への反論 Pennington+ (2014) GloVe: Global Vectors for Word Representation 20
  • 21. 感想 • ベクトルの加法構成性から議論を組み立て • シンプルで自然な定式化 • 共起行列を単語ベクトルで表現する • Skip-gramの目的関数との対比も興味深い • 安定した高い精度 • 𝒘𝑖は単語から文脈の分布, 𝒘𝑖は文脈から単 語の分布をモデル化という見方も興味深い • 公開されているコードも読みやすい Pennington+ (2014) GloVe: Global Vectors for Word Representation 21