Sequence Level Training with Recurrent Neural Networks （関東CV勉強会強化学習論文読み会）

強化学習論文読み会
Sequence Level Training
with Recurrent Neural Networks
牛久祥孝
losnuevetoros

自己紹介
～2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4～2016.3 NTT コミュニケーション科学基礎研究所
2016.4～東京大学大学院情報理工学系研究科
知能機械情報学専攻講師 (原田・牛久研究室)

卒論/修論/博論の季節ですね。

昔話（自分の修士論文黒歴史）
入力画像に類似した画像のキャプションを
組合せたら入力画像のキャプションになる？
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力画像
データセット内の説明文つき画像

Training Dataset
A woman posing
on a red scooter.
White and gray
kitten lying on
its side.
A white van
parked in an
empty lot.
A white cat rests
head on a stone.
Silver car parked
on side of road.
A small gray dog
on a leash.
A black dog
standing in a
grassy area.
A small white dog
wearing a flannel
warmer.
Input Image
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.
Nearest Captions
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.
A small white dog standing on a leash.

修士論文を書いていた当時(2011年)
Vision & Language勢はおろか…
画像キャプション生成勢が希少種

その後…
増えた！
時代が俺に追いついてきた！

その後…
もっと増えた！
レッドオーシャンかよ

2017年度の関東CVで…
• 8月のCVPR読み会
– Self-Critical Sequence Training for Image
Captioning
– 画像キャプション生成の論文
– 強化学習を利用
• 12月のICCV読み会
– Learning Cooperative Visual Dialog with Deep
Reinforcement Learning
– 視覚×対話の論文
ひとりVision&Language

2017年度の関東CVで…
• 8月のCVPR読み会
– Self-Critical Sequence Training for Image
Captioning
– 画像キャプション生成の論文
• 12月のICCV読み会
– Learning Cooperative Visual Dialog with Deep
Reinforcement Learning
– 視覚×対話の論文
ひとりVision&Language&強化学習強化年間

ICCV読み会の直後…
※一部抜粋等の編集あり

ICCV読み会の直後…
※一部抜粋等の編集あり
関東CVが俺にry

本日の論文
Sequence Level Training with Recurrent Neural Networks
強化学習を用いた文生成手法
Mixed Incremental Cross-Entropy Reinforce (MIXER)
画像キャプション生成/文章要約/機械翻訳に有効
[Ranzato+, ICLR 2016]

研究背景～手法の説明

通常のキャプション生成手法
Google NIC [Vinyals+, CVPR 2015]
• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM生成モデル [Sutskever+, NIPS 2014]
を直列させて文生成
画像𝐼への文（単語列）𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語
学習はRNNのCross-Entropy (XENT)

Encoder(前処理)による応用先
• Encoder が文特徴抽出
– 機械翻訳 [Sutskever+, NIPS 2014]
– 文章要約 [Rush+, EMNLP 2015]
• Encoder が画像特徴量抽出
– 画像キャプション生成
Decoder(後処理)はRNNによる文生成で共通
入力
出力

注視モデルの利用 [Xu+, ICML 2015]
• 画像認識と自然言語処理の融合
– 各単語の推定でどの領域を注目すべきかを算出
– 画像+キャプションから注視モデルも学習！

生成されたキャプションの評価方法
機械翻訳では…
• テスト文に複数の参照訳が付随（通常5文）
• これらの参照訳と近い訳文が「良い」
One jet lands at an airport while another takes off next to i
Two airplanes parked in an airport.
Two jets taxi past each other.
Two parked jet airplanes facing opposite directions.
two passenger planes on a grassy plain
キャプション生成の評価でも同様の流れ
PASCAL Sentenceの画像と参照キャプションの例

定量評価指標
• Precisionに基づく評価（元は機械翻訳用）
– システムが出力したキャプション中のn-gramが
参照キャプション中に含まれる割合
– BLEU [PapineniL, ACL 2002]
– NIST [Doddington, HLT 2002]
短い文へのペナルティ
N-gramのPrecisionの累積積
N-gramのPrecisionの累積和

定量評価指標
• Recallに基づく評価（元は文章要約用）
– 参照キャプション中のn-gramがシステムが、出
力したキャプション中に含まれる割合
– Rouge [Lin, 2004]
• METEOR [Elliott+Keller, EMNLP 2013]
– RecallとPrecision両方を重視

定量評価指標
• CIDEr [Vedantam+, CVPR 2015]
– METEORを参考に設計
– 画像キャプション生成の評価用に考案
TF-IDF（実はNISTとよく似ている）
n-gramでの
CIDErの累積和
n-gramでの
PrecisionとRecallの
調和平均（F値）

問題点1:評価指標で最適化したいのに！
Cross-Entropyで学習しても評価に用いるのは
BLEUなど
→ 生成したキャプションの評価指標を
直接最適化するべきでは？
• 評価指標の直接最適化
– 機械翻訳ではディープ以前からある [Och, ACL 2003]
• 深層学習で評価指標を直接最適化…？
– 勾配が求められないから学習できない！！
N-gramのPrecision

問題点2: Exposure Bias
通常のRNNによる系列生成モデル学習では…
• 学習時：Teacher forcing
– 入力は𝑡 − 1番目までの
教師データ
• テスト時：Free running
– 入力は𝑡 − 1番目までで
自身が推定したデータ
テスト時の生成系列が学習時から外れだすと
エラーが蓄積し続ける

Exposure Biasを解決する既存のアプローチ
Scheduled sampling [Venkatraman+, AAAI 2015]
Data As Demonstrator [Bengio+, NIPS 2015]
• 毎回コイントスして
– 教師系列から次を推定
– 生成中の系列から次を推定
のどちらかを選ぶ
• 次第に生成中の系列のみを選ぶ様にスケジュール
• Exposure Biasを軽減できるが…
– いまだにword-levelの最適化なのはXENTと同じ
– 生成中の系列が既に違っていた場合はよりエラーが蓄積
e.g. 正解が I had a long walk. で I had a walk 迄生成
→この手法だと walk が正解になってしまう

本論文の解決策: 強化学習
• 通常のRNN：Teacher forcing
– 𝑡番目単語の Cross-entropy を最小化
生成したキャプションを直接評価するべきでは
– 評価指標を報酬とする強化学習の導入すれば
問題点1と2が同時に解決されるはず！
機械翻訳/キャプション生成ならBLEU
文章要約ならROUGE
state
RNNの状態変数
action
単語系列の推定
reward
評価指標
environment
画像特徴と生成中のキャプション

Policy Gradient by REINFORCE
• REINFORCE [Williams, 1992]
– 実は報酬の勾配の期待値は
確率の（対数の）偏微分と報酬の積の期待値
– 先ほどと同様に、ミニバッチの画像の報酬から
近似できる
– 適当なベースライン𝑏を導入してもよい

REINFORCEだけだと…
• Actionは任意のキャプションの組み合わせ
– 語彙
単語数
通り
– フルスクラッチでそんな学習できるのか？
• MIXER: 2つの工夫
– 最初は通常通りCross-Entropyで学習したモデル
を利用（20 epochsくらい）
– 次第にREINFORCEによる学習の割合を増やす
（5 epochsくらい）
Cf. Mixed Incremental Cross-Entropy Reinforce
→ まさに Cross-Entropy と REINFORCE の混合

実験設定
• 次の3タスクによる文生成モデルの評価
– 文章要約
Gigaword (一部、18万ほどのニュース本文と題)
– 機械翻訳
IWSLT2014 (15万対ほどの独英翻訳データ)
– 画像キャプション生成
MSCOCO (8万枚ほどのキャプション付き画像)
• 比較手法
– XENT よくあるCross-Entropyによる学習
– DAD 既存のExposure Bias対応策
– MIXER 提案手法

実験結果
提案手法(MIXER)のみ評価指標で直接最適化
→最適化がうまくいけば、各タスクで勝つのは自然
• MIXERが各々最適化に用いた指標で評価
– 文章要約: Rouge
– 機械翻訳、画像キャプション生成: BLEU
• Beam Searchに関する実験も行っているが
本スライドでは割愛

まとめ
• 実は「画像キャプション生成に強化学習を
入れた」研究はその前にも存在
– アテンション付きキャプション生成 [Xu+, ICML 2015]
アテンションモデルの一つにREINFORCEを利用
• 本論文の貢献
– 評価指標を直接最適化できるRNN文生成モデル
– 微分不可能な評価指標を使う系列生成なら…
CVでもNLPでもIPでもなんでもokなはず

その後の展開
• Self-Critical Sequence Training for Image
Captioning [Rennie+, CVPR 2017]←7月
– REINFORCEの方策勾配のベースラインを
その時点で生成してみたキャプションの報酬に
– MIXERでは𝑏 = 0→勾配の分散大、学習が不安定
• An Actor-Critic Algorithm for Sequence
Prediction [Bahdanau+, ICLR 2017]←4月
– REINFORCE → Actor-Critic
– つまり勾配の分散の考慮…あれ↑と似てるぞ…

予想される反応
そんなことないよ（震え声）

最後に
寒すぎて味噌ラーメンが食べたい？

ぜひご参加ご検討ください！特に若手プログラムへ
https://sites.google.com/view/miru2018sapporo/
来年の夏ですが

Sequence Level Training with Recurrent Neural Networks （関東CV勉強会強化学習論文読み会）

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Sequence Level Training with Recurrent Neural Networks （関東CV勉強会強化学習論文読み会）

Semelhante a Sequence Level Training with Recurrent Neural Networks （関東CV勉強会強化学習論文読み会） (20)

Mais de Yoshitaka Ushiku

Mais de Yoshitaka Ushiku (12)