SlideShare uma empresa Scribd logo
1 de 27
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Ordered Neurons: IntegratingTree Structures into
Recurrent Neural Networks (ICLR2019)
Kazuki Fujikawa, DeNA
サマリ
• 書誌情報
– Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
• ICLR2019(Best paper)
• Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville
• 概要
– 系列データから抽出される特徴量が階層化されて学習されるように設計された
”ON-LSTM” (Ordered Neuron LSTM) を提案
• Forget gate / Input gate が階層的に動作するような ”Ordered Neuron (Gate)” を導入
– 言語モデルや教師なし構文解析などのタスクで有効性を確認
2
アウトライン
• 背景
• 提案手法
• 実験・結果
3
アウトライン
• 背景
• 提案手法
• 実験・結果
4
背景
• 自然言語は、単純な系列ではなく階層構造で考えることができる
• ニューラル言語モデルにも階層構造を導入することが重要である可能性がある
– DNNでは階層を重ねることで抽象度の高い特徴量を獲得できることが知られている
– 長期に渡った依存関係を学習しやすくできる可能性がある
– 良い帰納バイアスはモデルの汎化、データ効率の改善に貢献する
5
図: 人手でアノテーションされた構文木の例 [Shen+, ICLR2019]
アウトライン
• 背景
• 提案手法
• 実験・結果
6
ON-LSTM
• 着想
– 一般的なRNNと同様、系列データを順々に入力して特徴抽出する過程で、(a) のような
木構造や各ノードの特徴が学習されるようにしたい
– (a) の構文木は (b) の Block と見なすこともできる
– LSTMのメモリ状態が (c) のように変化していれば、階層性を学習できたと考えられる
• トークン 𝑥 𝑡 のEmbedding入力時のLSTMのメモリ状態が、構文木上での各階層の特徴量を示す
• 構文木で変化が無い階層(ex. 𝑥2, 𝑥3 の “S”, “VP”)は、対応するLSTMのメモリ状態にも変化が無い
• 構文木で上の階層が変化する場合(ex. 𝑥1, 𝑥2 の “NP” → “VP” )、それより下の階層に対応する
LSTMのメモリ状態は全て更新される
7
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– 標準のLSTMのメモリ更新
① 過去の情報𝑐𝑡−1をどの程度利用するかを制御する𝑓𝑡 (forget gate) を導出
② 新規の情報 𝑐𝑡をどの程度利用するかを制御する𝑖 𝑡 (input gate) を導出
③ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する
8図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTM
• 下図 “ON GATES” の部分以外は標準のLSTMと同様
9
ON GATES
図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
10
𝑔 𝑘 =
exp(𝒛 𝑘)
𝑘′ exp(𝒛 𝑘′)
𝑔 𝑘 =
𝑘′≤𝑘
𝑔 𝑘
𝑐𝑢𝑚𝑎𝑥(∙)𝑠𝑜𝑓𝑡𝑚𝑎𝑥(∙)
活性化関数: 𝑐𝑢𝑚𝑎𝑥 (cumulative softmax) を利用
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
11
𝑓𝑡, 𝑖 𝑡 の特性
𝑓𝑡 𝑖 𝑡
▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和
→ ピークを迎えた後は1に近い値を連続して出力する
▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ
▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い
値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される
(学習で求まるものであり、陽に与えるものではない)
▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない
→ 重複している部分 = “不完全な” 部分
(一部更新が必要な部分?)
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
12
𝑓𝑡, 𝑖 𝑡 の特性
𝑓𝑡 𝑖 𝑡
▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和
→ ピークを迎えた後は1に近い値を連続して出力する
▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ
▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い
値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される
(学習で求まるものであり、陽に与えるものではない)
▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない
→ 重複している部分 = “不完全な” 部分
(一部更新が必要な部分?)
ON-LSTM
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
13
𝑓𝑡 𝑖 𝑡
°
𝑤𝑡
=
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
ON-LSTM
14
𝑓𝑡 𝑤𝑡
− = 𝑖 𝑡 と重複していない部分
→ 𝑓𝑡をそのまま利用
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
ON-LSTM
15
𝑓𝑡 𝑤𝑡
° = 𝑖 𝑡 と重複している部分
→ 𝑓𝑡との合議で決定
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出
ON-LSTM
16
• LSTMのメモリ状態の更新プロセスを変えることで実現
– ON-LSTMのメモリ更新
① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出
② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出
③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出
④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出
⑤ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する
ON-LSTM
17
アウトライン
• 背景
• 提案手法
• 実験・結果
18
実験1: 言語モデル
• 言語モデル(次の単語を予測するタスク)を学習し、Perplexity で評価
– データセット: Penn TreeBank (PTB)
– ハイパーパラメータはAWD-LSTM [Merity+, 2017] に合わせた
• 結果・考察
– レイヤー数などのハイパーパラメータを Merity+ と統一していながら、Perplexityを改善
– AWD-LSTM-MoS [Yang+, 2017] には負けているものの、Softmaxレイヤーの改善であり、
本研究とは共存可能
19
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
20
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
21
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
22
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
23
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 言語モデルの学習済みモデルを使い、構文解析木を推定
① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘 を算出
(𝐷 𝑚: 隠れ層の次元数、 𝑘=1
𝐷 𝑚
𝑓𝑡𝑘: master forget gateのactivationの総和)
② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する
24
She enjoys playing tennis .
𝑑1 𝑑2 𝑑3 𝑑4
ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順
She enjoys playing tennis .
実験2: 教師なし構文解析
• 結果・考察
– 3層ON-LSTMの各層のmaster forget gateの値を用いてParsingした結果を比較
• 2層目のmaster forget gateでparsingした場合が最も良い結果となった
• 1, 3層目は言語モデルのタスクに対してより有用な特徴表現になっていて、抽象化されていなかった
可能性が考えられる
25
ON-LSTM 2nd-layer Human expert annotations
結論
• RNNに対する新しい帰納バイアスの与え方としてordered neuronsを提案
– 新規のRecurrent unit: ON-LSTM、活性化関数: cumaxを含む
– 長期 / 短期の情報がRNNのメモリの別領域に書き込まれるようにすることで、木構造の
ようなデータ構造を表現できるようにした
• 言語モデル、教師なし構文解析のタスクで有効性を検証
– ON-LSTMは言語モデルの学習過程で文構造を暗に学習することができ、それによって
言語モデル自体の性能を改善することができた
26
References
• Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville. Ordered Neurons: Integrating Tree
Structures into Recurrent Neural Networks. In ICLR2019.
• Stephen Merity, Nitish Shirish Keskar, and Richard Socher. Regularizing and Optimizing LSTM
Language Models. In ICLR2018.
• Zhilin Yang, Zihang Dai, Ruslan Salakhutdinov, and William W Cohen. Breaking the softmax
bottleneck: A high-rank rnn language model. In ICLR2018.
27

Mais conteúdo relacionado

Mais de Deep Learning JP

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...Deep Learning JP
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLMDeep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...Deep Learning JP
 

Mais de Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

Último

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Último (9)

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

[DL輪読会]Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Ordered Neurons: IntegratingTree Structures into Recurrent Neural Networks (ICLR2019) Kazuki Fujikawa, DeNA
  • 2. サマリ • 書誌情報 – Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks • ICLR2019(Best paper) • Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville • 概要 – 系列データから抽出される特徴量が階層化されて学習されるように設計された ”ON-LSTM” (Ordered Neuron LSTM) を提案 • Forget gate / Input gate が階層的に動作するような ”Ordered Neuron (Gate)” を導入 – 言語モデルや教師なし構文解析などのタスクで有効性を確認 2
  • 5. 背景 • 自然言語は、単純な系列ではなく階層構造で考えることができる • ニューラル言語モデルにも階層構造を導入することが重要である可能性がある – DNNでは階層を重ねることで抽象度の高い特徴量を獲得できることが知られている – 長期に渡った依存関係を学習しやすくできる可能性がある – 良い帰納バイアスはモデルの汎化、データ効率の改善に貢献する 5 図: 人手でアノテーションされた構文木の例 [Shen+, ICLR2019]
  • 7. ON-LSTM • 着想 – 一般的なRNNと同様、系列データを順々に入力して特徴抽出する過程で、(a) のような 木構造や各ノードの特徴が学習されるようにしたい – (a) の構文木は (b) の Block と見なすこともできる – LSTMのメモリ状態が (c) のように変化していれば、階層性を学習できたと考えられる • トークン 𝑥 𝑡 のEmbedding入力時のLSTMのメモリ状態が、構文木上での各階層の特徴量を示す • 構文木で変化が無い階層(ex. 𝑥2, 𝑥3 の “S”, “VP”)は、対応するLSTMのメモリ状態にも変化が無い • 構文木で上の階層が変化する場合(ex. 𝑥1, 𝑥2 の “NP” → “VP” )、それより下の階層に対応する LSTMのメモリ状態は全て更新される 7
  • 8. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – 標準のLSTMのメモリ更新 ① 過去の情報𝑐𝑡−1をどの程度利用するかを制御する𝑓𝑡 (forget gate) を導出 ② 新規の情報 𝑐𝑡をどの程度利用するかを制御する𝑖 𝑡 (input gate) を導出 ③ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する 8図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
  • 9. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTM • 下図 “ON GATES” の部分以外は標準のLSTMと同様 9 ON GATES 図引用: https://colah.github.io/posts/2015-08-Understanding-LSTMs/
  • 10. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 10 𝑔 𝑘 = exp(𝒛 𝑘) 𝑘′ exp(𝒛 𝑘′) 𝑔 𝑘 = 𝑘′≤𝑘 𝑔 𝑘 𝑐𝑢𝑚𝑎𝑥(∙)𝑠𝑜𝑓𝑡𝑚𝑎𝑥(∙) 活性化関数: 𝑐𝑢𝑚𝑎𝑥 (cumulative softmax) を利用
  • 11. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 11 𝑓𝑡, 𝑖 𝑡 の特性 𝑓𝑡 𝑖 𝑡 ▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和 → ピークを迎えた後は1に近い値を連続して出力する ▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ ▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い 値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される (学習で求まるものであり、陽に与えるものではない) ▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない → 重複している部分 = “不完全な” 部分 (一部更新が必要な部分?)
  • 12. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 12 𝑓𝑡, 𝑖 𝑡 の特性 𝑓𝑡 𝑖 𝑡 ▪ 𝑐𝑢𝑚𝑎𝑥 は 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 の累積和 → ピークを迎えた後は1に近い値を連続して出力する ▪ 𝑓𝑡, 𝑖 𝑡 は逆側の次元で1に近い値を持つ ▪ 構文木の上位階層が変化するノードでは、 𝑓𝑡 は0に近い 値が多く、 𝑖 𝑡 は1に近い値が多いことが期待される (学習で求まるものであり、陽に与えるものではない) ▪ 𝑓𝑡, 𝑖 𝑡 は足して1になる訳ではない → 重複している部分 = “不完全な” 部分 (一部更新が必要な部分?)
  • 13. ON-LSTM • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 13 𝑓𝑡 𝑖 𝑡 ° 𝑤𝑡 =
  • 14. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ON-LSTM 14 𝑓𝑡 𝑤𝑡 − = 𝑖 𝑡 と重複していない部分 → 𝑓𝑡をそのまま利用
  • 15. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ON-LSTM 15 𝑓𝑡 𝑤𝑡 ° = 𝑖 𝑡 と重複している部分 → 𝑓𝑡との合議で決定
  • 16. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出 ON-LSTM 16
  • 17. • LSTMのメモリ状態の更新プロセスを変えることで実現 – ON-LSTMのメモリ更新 ① 消去 / 書込すべき領域 𝑓𝑡(master forget gate) 𝑖 𝑡 (master input gate) を導出 ② 𝑓𝑡 と 𝑖 𝑡 の重複部分: 𝑤𝑡 を導出 ③ 𝑓𝑡, 𝑤𝑡, 𝑓𝑡 (標準のLSTMのforget gate) を使って 𝑓𝑡 (ON-LSTM forget gate) を導出 ④ 𝑖 𝑡, 𝑤𝑡, 𝑖 𝑡 (標準のLSTMのinput gate) を使って 𝑖 𝑡 (ON-LSTM input gate) を導出 ⑤ 過去の情報𝑐𝑡−1と新規の情報 𝑐𝑡を𝑓𝑡と𝑖 𝑡で重み付けしてメモリを更新する ON-LSTM 17
  • 19. 実験1: 言語モデル • 言語モデル(次の単語を予測するタスク)を学習し、Perplexity で評価 – データセット: Penn TreeBank (PTB) – ハイパーパラメータはAWD-LSTM [Merity+, 2017] に合わせた • 結果・考察 – レイヤー数などのハイパーパラメータを Merity+ と統一していながら、Perplexityを改善 – AWD-LSTM-MoS [Yang+, 2017] には負けているものの、Softmaxレイヤーの改善であり、 本研究とは共存可能 19
  • 20. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 20 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 21. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 21 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 22. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 22 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 23. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 23 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 24. 実験2: 教師なし構文解析 • 言語モデルの学習済みモデルを使い、構文解析木を推定 ① 各時刻𝑡について、𝑑 𝑡 = 𝐷 𝑚 − 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘 を算出 (𝐷 𝑚: 隠れ層の次元数、 𝑘=1 𝐷 𝑚 𝑓𝑡𝑘: master forget gateのactivationの総和) ② 𝑑 𝑡についてソートし、この値が大きな𝑡, 𝑡 + 1の組から順に分割して木を構築する 24 She enjoys playing tennis . 𝑑1 𝑑2 𝑑3 𝑑4 ex. “She enjoys playing tennis .“ の𝑑 𝑡の値が以下のようになっていた場合の構築手順 She enjoys playing tennis .
  • 25. 実験2: 教師なし構文解析 • 結果・考察 – 3層ON-LSTMの各層のmaster forget gateの値を用いてParsingした結果を比較 • 2層目のmaster forget gateでparsingした場合が最も良い結果となった • 1, 3層目は言語モデルのタスクに対してより有用な特徴表現になっていて、抽象化されていなかった 可能性が考えられる 25 ON-LSTM 2nd-layer Human expert annotations
  • 26. 結論 • RNNに対する新しい帰納バイアスの与え方としてordered neuronsを提案 – 新規のRecurrent unit: ON-LSTM、活性化関数: cumaxを含む – 長期 / 短期の情報がRNNのメモリの別領域に書き込まれるようにすることで、木構造の ようなデータ構造を表現できるようにした • 言語モデル、教師なし構文解析のタスクで有効性を検証 – ON-LSTMは言語モデルの学習過程で文構造を暗に学習することができ、それによって 言語モデル自体の性能を改善することができた 26
  • 27. References • Yikang Shen, hawn Tan, Alessandro Sordoni, Aaron Courville. Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks. In ICLR2019. • Stephen Merity, Nitish Shirish Keskar, and Richard Socher. Regularizing and Optimizing LSTM Language Models. In ICLR2018. • Zhilin Yang, Zihang Dai, Ruslan Salakhutdinov, and William W Cohen. Breaking the softmax bottleneck: A high-rank rnn language model. In ICLR2018. 27