Deep nlp 4.2-4.3_0309

深層学習による自然言語処理
4.2-4.3
Kentaro Nakanishi
2019/03/09

自己紹介
Kentaro Nakanishi
sns: @cfiken
株式会社ミクシィ/エンジニア
2015/04:
　新卒入社 & サービス開発 (iOS)
2018/04:
　Deep で NLP な新規事業に異動
　もろもろ1から勉強中
趣味: youtube, kaggle

資料の注意点
● なるべく書籍に沿わずに英語表記で記載します
符号化: encoder
復号化: decoder
注意機構: attention mechanism
etc..
● 一部書籍とは例となるモデルなどが異なります

4章
言語処理特有の深層学習の発展

4章: 言語処理特有の深層学習の発展
4.1. Attention Mechanism
4.2. Memory Network
4.3. 出力層の高速化

本日の内容
4.1. Attention Mechanism
4.2. Memory Network
4.3. 出力層の高速化

Sequence to sequence (encoder decoder)
系列を入力し、系列に変換する
• encoder embedding layer
• encoder recurrent layer
• decoder embedding layer
• decoder recurrent layer
• decoder output layer

Attention mechanism
● RNN での Attention
最終的な隠れ状態を使うので
はなく、どの時点での隠れ状
態を重視するかも含めて学習
させる仕組み。
長い系列だとはじめの情報が
伝わりづらいという RNN の
課題が改善された。

Attention mechanism
● より一般的な Attention
key と value からなる
Dictionary に対して、 query
で情報を取ってくる機構

モチベーション
seq2seq や attention mechanism により sequence を入
れると何かしら sequence を生成するモデルが出来た
応用先 (5章)
● 機械翻訳
● 文書要約
● 対話
● 質問応答

モチベーション
● 機械翻訳
○ 与えられたセンテンスだけでなく、もっと長いコンテキス
トをもとに翻訳したい
● 対話
○ 与えられたセンテンスに対する返答ではなく、会話のコン
テキストや状況に沿って返答してほしい
● 質問応答
○ 過去の発言やデータをもとに回答してほしい

長いコンテキストを扱うアイディア
HRED [1]
[1] figure 3 を引用

Memory Networks 概要
より直接的に記憶をモデル化するアイディア [2]
記憶 m (object list) と4つのモジュールを持つモデル
何か入力を入れると、記憶をもとに出力を返してほし
い、という問題を解く
Joe went to the kitchen. Fred went to the kitchen. Joe picked up
the milk. Joe travelled to the office. Joe left the milk. Joe went to
the bathroom.
Where is the milk now? A: office

4つのモジュール
● I: input feature map
● G: generalization
● O: output feature map
● R: response

● I: input feature map
入力を内部表現に変換
● 例
○ Bag-of-Words 表現
○ embedding vector

● G: generalization
入力をメモリに一般化
● 例
○

● O: output feature map
入力と記憶から出力表現 o を獲得
● 例
○ 関連の強いメモリを選んで
入力と concat して返す

● R: response
出力表現から応答 r を生成
● 例
○ 最も関連する単語を返す

Memory Network
● 実際のモデル例を見ていく
○ Basic Model [2]
■ Memory Network の論文で挙げられている例
○ End-to-end Memory Network [3]
○ Dynamic Memory Network [4]

Basic model
● 前提
○ 根拠情報 (supporting fact) が与えられる
○ モデルの最終的な出力は単語
● 例
Joe went to the kitchen. Fred went to the kitchen. Joe picked up
the milk. Joe travelled to the office. Joe left the milk. Joe went
to the bathroom.

Input & Generalization
● input feature map
○ そのまま (前処理のみ)
○
● generalization
○ メモリの空いているスロット番号 N として、
○

Output Feature Map
● output feature map
入力 x に対して、k 個の supporting memory を探索
(basic model では k = 2)
は入力とメモリのスコア関数 (後述)

Joe went to the kitchen. Fred went to the kitchen. Joe picked up the milk.
Joe travelled to the office. Joe left the milk. Joe went to the bathroom.
Where is the milk now?
Output Feature Map

Output Feature Map
入力 x に対して、k 個の supporting memory を探索
(basic model では k = 2)
は入力とメモリーのスコア関数 (後述)

Output Feature Map
最終的な出力は

Response
● response
ここで、は出力情報と単語のスコア関数 (後述)

Score Function
● スコア関数
ここで、
例: BoW 表現など
: embedding matrix
で別のパラメータ行列を用いる

Training
● トレーニング
次の margin ranking loss を最小化する

課題
● Memory Networks の課題
○ 途中で argmax が使われている
■ argmax が正しい(中間課題を解く)必要がある
○ 学習に supporting facts が必要
○ k を増やすとベクトルが大きくなる

Hard Attention と Soft Attention
0.70.10.1 0.1
Hard Attention Soft Attention

End-to-end Memory Networks
● Soft Attention を用いた Memory Networks
○ output feature map において、関連するメモリを
取り出すのではなく、メモリの重み付き和をとる
○ end-to-end に学習できる
= 中間課題を解く必要がない
● multi hop で複数回 attention を適用

Single Layer
query (質問文)を
B で Embedding

Single Layer
memory (記憶)を
C で Embedding し、
output とする

Single Layer
memory (記憶)を
A で Embedding し、
input とする

Single Layer
input の各ベクトルと
u で内積を取り、
メモリと質問のマッチ
度を計算
その後、softmax
を取って確率とする

Single Layer
output c を先程計算し
た weight p で重み付
き和をとる

Single Layer
出力は単語 a
メモリからの情報 o と
質問からの情報 u を使う

Multi-hop
新たに出来た出力表現
を次の query として同じ処理を
繰り返す

Multi-hop
Joe went to the kitchen. Fred went to the kitchen.
Joe picked up the milk. Joe travelled to the office.
Joe left the milk. Joe went to the bathroom.
新たに出来た出力表現
を次の query として同じ処理を
繰り返す

Memory Network との違い
● Memory Network
質問文とメモリの内積をとって、高いものを
出力情報として使っていた

Memory Network との違い
(1) argmax ではなく
soft attention で重み付
き和を取っている
(2) マッチ度計算に使っ
たメモリをそのまま
使うのではなく、別で
変換したものを使ってい
る

Key
Dictionary として見る Attention
Value
Query

Training
● 微分可能な関数のみで構成されているので、
入力情報 , 質問文 , 正しい返答
が与えられれば、クロスエントロピー損失を用いて
全体を一気通貫に学習させることが出来る

Memory Networks からの改善点
● 微分可能な関数だけで構成されている
● supporting facts が必要ない
● k の大きさに応じてベクトルのサイズが変わらない

Dynamic memory networks
[4] Figure 3 より引用

Dynamic memory networks
● 各モジュールで encode に GRU を使用
● episodic memory (value に相当) もゲート付き GRUを
使用
● key, query を使用したゲートの重みの計算には二層の
FFN を使用
● hopping 回数が動的に決まる (最大値は指定する)

その他の Memory Networks
● Neural Turing Machine (2014) [5]
○ 明示的に記憶領域を持ち、read と write ができる
○ copy, sort といったアルゴリズムタスク
● Neural GPU Learns Algorithms (2015) [6]
○ 上記に加えて、足し算などの演算ができるように

私見
● 辞書から情報を引き出す Attention の仕組みは今では一般
的なので、Memory Network という名前を聞くことは減っ
ている気がする
○ Attention の仕組みを encoder として使うなど
● Memory 用のモデルとしてではなく、汎用的なモデルで同様
のことが出来るようになってきた印象
○ Universal Transformer (2018) は bAbI で全問正解

出力層のおさらい
● 出力層
色んなモデルで何らかの表現 o を獲
得した後、最終的に V 次元 (V: 語彙
数)のベクトルに変換される
確率に変換するために softmax を取
ると、

出力層の課題
● クロスエントロピー損失で学習を行う
Y は全語彙集合になるため、分母の計算が重くなる

分配関数さらに、
とおくと、次のようにかける
勾配は、
出力層の課題

出力層の課題
となるので、

出力層の課題
第二項はすべての語彙について計算する必要がある
-> 重い

対策
様々な方法が提案されている
● Importance Sampling
● NCE (Noise Contrastive Estimation)
● Negative Sampling
● ブラックアウト
● 階層的ソフトマックス

対策の比較
● 階層的ソフトマックス
○ モデル自体の形を変えて計算を効率化する
● NCE / Negative sampling / ブラックアウト
○ 目的関数を変える(解く問題を工夫する)ことで計算
を効率化する
● Importance sampling
○ もとの目的関数の期待値計算を近似する

Importance Sampling
ある分布 p についての期待値を、標本平均で近似計算
したい
p からのサンプリングが難しい場合に、サンプリング
が容易な分布 q を用意して、そこからの標本を使って
計算する

Importance Sampling
まだ p の計算が必要
= Z(y) の計算が必要

Importance Sampling
一様分布におけるの期待値
を使って、とかける。
ここから先ほどと同様に importance sampling で、
※ 途中式省略していますが、書籍 P112 に載っています

Importance Sampling
勾配の式の中に p がなくなった！
= 語彙数に依存した項を取り除くことが出来た

NCE [9]
● Z を近似するのではなく、
とおいて、を満たすような c を推定すること
を考える
● これができれば Z を計算する必要がなくなるが、最尤
推定で最適化できなくなる
(c -> ∞ とすると負の対数尤度は無限に最小化できるが、確
率の要件を満たさなくなる)
● 目的関数を工夫することで推定可能にする

NCE: 目的関数
● 目的関数を工夫することで推定可能にする
今まで: 語彙集合の中から単語を正しく分類する
NCE: 学習データとノイズデータを正しく分類する

NCE: 疑問点
● 具体的にどういう式になるの?
○ この後見ます
● 勝手に目的関数変えてちゃんと学習できるの?
○ 出来る！
○ 最尤推定で求めたものと一致することが示されてい
ます [9]

NCE: 具体的な形
● p の分布から得られたデータと、q の分布から得られた
データを正しく識別するような分類問題を考える
となるような確率変数 D を定義する。ノイズからのデータ
がk 倍出現しやすいとすると、

● ノイズからのデータが k 倍出現しやすいとすると、
D と Y の同時確率は、

● ある Y がそれぞれからサンプリングされた確率は、

● これらを使って分類のための負の対数尤度をとると、
ここで、

NCE: self-normalized
● Z = 1 (c = 0) と仮定して置いてもうまくいくことが経
験的に発見されている
○ self-normalized (自己正規化) という
○ すなわちで計算すれば良い

Negative Sampling
● NCE をより単純化させた方法 [10]
● 識別にシグモイド関数を使う
● 実装が単純で動作も軽いため、よく使われる
○ 3.3.3 が具体例 (ただし書籍は間違っている)

ありがとうございました

参考文献
[1] A. Sordoni et al., ‘A Hierarchical Recurrent Encoder-Decoder For Generative
Context-Aware Query Suggestion’., arXiv:1507.02221, 2015.
[2] J. Weston et al., ‘Memory Networks’, arXiv:1410.3916, 2014.
[3] S. Sukhbaatar et al., ‘End-To-End Memory Networks’, arXiv:1503.08895, 2015.
[4] A. Kumar et al., ‘Ask Me Anything: Dynamic Memory Networks for Natural
Language Processing’, arXiv:1506.07285, 2015.
[5] A. Graves et al., ‘Neural Turing Machine’, arXiv:1410.5401, 2015.
[6] Łukasz Kaiser and Ilya Sutskever, ‘Neural GPUs Learn Algorithms’,
arXiv:1511.08228, 2015.
[7] M. Dehghani et al., ‘Universal Transformers’, arXiv:1807.03819, 2018.
[8] Wizard of Wikipedia
[9] Noise Contrastive Estimation
[10] Distributed representation of words and phrases and thier compositionality

ブラックアウト
● NCE と Importance Sampling を組み合わせたような手
法

階層的ソフトマックス

Deep nlp 4.2-4.3_0309

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Deep nlp 4.2-4.3_0309

Semelhante a Deep nlp 4.2-4.3_0309 (20)

Último

Último (9)

Deep nlp 4.2-4.3_0309