SlideShare a Scribd company logo
1 of 32
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Batch Reinforcement Learning
強化学習アーキテクチャ勉強会
January., 2020
Takuma Oda
Mobility Intelligence Development Dept.
Automotive Business Unit
DeNA Co., Ltd.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
2
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
3
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Challenges of Real-World Reinforcement Learning
1. Training off-line from the fixed logs of an external behavior policy.
2. Learning on the real system from limited samples.
3. High-dimensional continuous state and action spaces.
4. Safety constraints that should never or at least rarely be violated.
5. Tasks that may be partially observable, alternatively viewed as non-stationary or
stochastic.
6. Reward functions that are unspecified, multi-objective, or risk-sensitive.
7. System operators who desire explainable policies and actions.
8. Inference that must happen in real-time at the control frequency of the system.
9. Large and/or unknown delays in the system actuators, sensors, or rewards.
G. Dulac-Arnold, D. Mankowitz, and T. Hester. Challenges of Real-World Reinforcement Learning.
arXiv e-prints, art. arXiv:1904.12901, Apr 2019.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Challenges of Real-World Reinforcement Learning
1. すでに収集された固定のログから学習
2. 高次元、連続的な状態、行動空間
3. 安全面における制約
4. 部分観測タスク
5. 報酬設計:複数の目的関数、リスク選好
6. 方策の説明可能性
7. 推論の応答性
8. 状態、行動、報酬取得の大幅な遅れ
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Data-Driven Deep Reinforcement Learning
 スタティックなデータセットから汎用モデルを学習する機械学習タスクと異なり、強化学習は実
験(学習)ごとにオンラインで環境に対して相互作用しながらデータ収集が必要
 自動運転、ロボットなどの多くの実世界の問題では正確なシミュレーション環境を作ることが難
しいが、実環境からのデータ収集はコストや安全性、時間的にハードルが高い
 ほとんどのアプリケーションではすでになんらかの方策によって相互作用して収集した大量の
データが手元にある
=> このデータセットを強化学習に活用することができれば、汎用的なモデルを学習しやすくなる上、
シミュレータレスで学習が可能となり、社会実装への道が一気に広がる
https://bair.berkeley.edu/blog/2019/12/05/bear/
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Batch RL / Fully Off-policy RL
 環境との相互作用を一切行わず、固定のデータセット(過去に別の方策を使って収集した報酬を
含むデータ)のみから最適な方策を学習
e.g. 人間の行動、すでにデプロイされたヒューリスティックな方策など
 Behavioral cloning / Imitation Learning / Inverse RL
⁃ 報酬データが得られない場合やデータ収集用の方策の質が高ければ有効なアプローチ
⁃ Distributional shiftに対応するため、GAILなど多くのアルゴリズムでは追加のデータ収集が必要
 “Off-policy” Deep RL
⁃ Fully off-policyの条件下では上手く学習が進まない
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
8
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
“Off-policy” Deep RL
 前提知識
⁃ Q-learningのようなoff-policyアルゴリズムは、原則としては、どのような方策でデータ収集を
行っても最適な方策の学習が可能
⁃ 近年のモダンなoff-policy deep RL アルゴリズムはExperience Memoryにデータを貯めておき、
データ収集と学習を交互に行う
⁃ 行動方策は near-on-policy exploratory policy: e.g) e-greedy
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 実験条件
⁃ Final Buffer
• DDPGを学習するまでの全ての遷移を保存
• 初期〜最適方策までの幅広いstate-actionを網羅
⁃ Concurrent
• Behavioral DDPGとoff-policy DDPGを同時に学習
• どちらも同一のデータセットから学習
⁃ Imitation
• 学習後のDDPGをエキスパートとしてデータ生成
 結果
⁃ 全ての条件(Concurrentでさえ)でoff-policyはbehavioralに比べて優位に悪いパフォーマンス
⁃ 初期方策における状態分布の違いだけでパフォーマンスに大きく影響する
Off-Policy Deep Reinforcement Learning without Exploration
Scott Fujimoto, David Meger, Doina Precup ; ICML, 2019.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Mean squared Bellman error
 Bellman equation
 Mean squared Bellman error
⁃ 多くのアルゴリズム(DDPG, SAC)では学習する価値関数のロス関数としてMSBEを用いる
⁃ バッチデータのサンプルで計算されたロスはバッチ中の状態行動分布( state-action visitation
distribution)で平均されている
⁃ 本来最小化したいロスは学習中の方策における状態行動分布で平均されたもの
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Extrapolation Error / Bootstrapping Error
 データに存在しないstate-actionの価値を誤って非現実な値に見積もってしまう
 maxオペレーションにより価値の過大評価が起こる
 On-policyではこの ”optimism in the face of uncertainty” が有益なexplorationとなるため、結果として
不確実性の高い状態周辺のデータがより優先的に収集されるようになり、推定価値が是正される
 Off-policyでは新たなデータ収集が行われないため、extrapolation errorを是正できない
バッチの行動分布
推定価値
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
13
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Reinforcement Learning from Imperfect Demonstrations
Y Gao, J Lin, F Yu, S Levine, T Darrell ; ICML, 2018.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Method
ある状態において悪い行動のデータが観測されな
かった場合、行動自体が適切だったのか、もしく
はその状態において全ての行動が良かったのかど
うか判別できない
=> 観測されていない行動のQが上昇するのを抑制
したい
 Soft V*とQ*, π*が満たす関係を制約し、
Maximum Entropy RLの目的関数から導出
 PG勾配はQ(s,a)を上昇させるときにはV(s)を減
少させようとする
 V(s)を減少させることは、VとQのsoftmaxの制
約により、観測されていない行動のQを減少さ
せる働きを持つ
この項がSoft Q-learningとの差
Soft V*とQ*, π*が満たす関係
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Normalized Actor-Critic
Soft Q-learningとの違いは勾配のみ
予めReplay bufferとして収集したデモンスト
レーションデータを用意しておく
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 Torcs(レースゲーム): 画像入力(状態)、離散行動
 学習済みのエキスパート方策からデータセットを作成し、DQfDやBC(cross entropy)などと比較
デモンストレーションデータのみから学習 事前学習後に環境で学習
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 一部のデータを欠陥させた実験(行動をargmin Q(s,a)に置換)
デモンストレーションを30%欠陥させて学習 10000遷移のみのデモンストレーションから学習
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Off-Policy Deep Reinforcement Learning without Exploration
Scott Fujimoto, David Meger, Doina Precup ; ICML, 2019.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Method
 方針
⁃ バッチデータの状態行動分布からサンプリングし、その中で最も価値の高い行動を選択
 Generative Model
⁃ バッチデータの行動方策を再現する生成モデル(Conditional VAE)を学習する
 Perturbation network
⁃ (行動が連続値であるため)生成モデルのサンプリングを抑えるためにサンプリングされた
行動値aから[-Φ, Φ]の範囲で最も行動価値が高い行動値に調整する
⁃ DDPGと同様にQ-networkの出力を最大化するように学習
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Method
 Clipped Double Q-learning
⁃ 未来の不確定性に対してペナルティを与えるため、二つのQ-networkの最小値をターゲットに
使うClipped Double Q-learningを踏襲し、min側に比重を置いたsoft minimumを使う
⁃ パラメータλで不確定性のペナルティ度合いを調整できる
 Policy
⁃ 生成モデルからサンプリングして、Perturbation networkで微調整した行動の中で最も行動価
値の高い行動を選択する
⁃ n, Φにより模倣学習と強化学習のトレードオフを調整できる
⁃ Φ=0, n=1であればbehavioral cloning、n->∞でQ-learning
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Batch-Constrained deep Q-learning
CVAEのEncoder, Decoderを更新
生成モデルから次状態s’における行動を
n個サンプリング
Perturbation networkでサンプリングされた
行動値を調整
target networksのsoft minimumによる
ターゲットを算出し、Q-networkを更新
Perturbation networkを更新
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
全てのタスクでBCQがBehavioralと同等以上を達成
ImitationタスクではBC(Behavioral Cloning)がベスト
Imperfect demonstrationsでは圧倒的にBCQが優位
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Stabilizing Off-Policy Q-Learning via Bootstrapping
Error Reduction
Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine; NeurIPS, 2019.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Support Constraint
 BCQはBehavioral Cloningと同様に学習する方策が元の行動方策の分布に近くなるように(暗に)制
限していたが、これは制限が強すぎる
 例えば完全にランダムな方策から学習された方策は原理的には(サンプル数が十分あれば)最適
な方策が学習できるはずだが、BCQだと元の方策に近くなってしまう
 バッチデータの方策のsupportが一致する、つまりバッチ方策が一定確率以下の行動は学習方策で
も確率が0となるような方策に制限する
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Maximum Mean Discrepancy (MMD)
 どのように学習方策に対してSupport constraintを適応できるか
 サンプルした行動間のMMD距離をsupport constraint充足の指標に使う
 少ないサンプル数(<10)で計算したMMDにより二つの分布のサポートの違いを判別可能であるこ
とを実験的に確認(サンプル数が多すぎると分布一致の制約となってしまう)
 MMDがε以下という制約のもと、Dual gradient descentで方策のパラメータを更新
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
BEAR Q-learning
 5. BCQを拡張して、K個のQ-networkのsot minimumをターゲットとして使う
 8. MMD制約のもとDual gradient descentで方策のパラメータを更新
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 準最適な方策(学習途中のモデル)から生成したデータをバッチデータとして比較
 BEAR-QLはBCQを上回る性能
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Experiment
 MMDの代わりにKL Divergenceを用いた場合
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
30
背景
なぜ従来のアルゴリズムでは学習できないのか?
アルゴリズム紹介:NAS, BCQ, BEAR-QL
1
2
3
まとめ4
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Summary
 総論
⁃ バッチ強化学習が上手く機能すれば、シミュレーションに頼らずに学習が可能となり、Sim2Real Gapに悩まされるこ
とがなくなる
⁃ Fully off-policy の条件ではExtrapolation Errorによって従来のアルゴリズムでは学習が上手く進まない
⁃ バッチ強化学習のアルゴリズムは本発表で紹介した手法以外にも多くの手法が提案されている
 実世界の適用に向けて
⁃ シミュレーションを用いずに、バッチデータを使って新しい方策のパフォーマンスを評価する手法が必要( Off-
policy Policy Evaluation)
⁃ ほとんどのアプリケーションでは、実世界にデプロイする前に、ケースや条件ごとのテストは必要
=> 結局ある程度のシミュレータは必要?
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
参考文献
 G. Dulac-Arnold, D. Mankowitz, and T. Hester. Challenges of Real-World Reinforcement Learning. ICML, 2019.
 Yang Gao, Huazhe Xu, Ji Lin, Fisher Yu, Sergey Levine, and Trevor Darrell. Reinforcement learning from imperfect
demonstrations. ICML, 2018.
 Scott Fujimoto, David Meger, and Doina Precup. Off-policy deep reinforcement learning without exploration. ICML,
2019.
 Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing off-policy q-learning via bootstrapping error
reduction. NeurIPS, 2019.

More Related Content

What's hot

自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニングNaoaki Okazaki
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健Preferred Networks
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画までShunji Umetani
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment AnythingDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019Deep Learning JP
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3までYahoo!デベロッパーネットワーク
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 

What's hot (20)

自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニング
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 

Similar to Batch Reinforcement Learning

A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...DataWorks Summit/Hadoop Summit
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...Recruit Technologies
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Fumihiko Takahashi
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHIKamonohashi
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANsKentaro Tachibana
 
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてTakashi Suzuki
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さんAkira Shibata
 
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)tomohiro kato
 
FPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティングFPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティングHideo Terada
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Koichi Hamada
 
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一Insight Technology, Inc.
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータShinya Takamaeda-Y
 
Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例
Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例
Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例Hironobu Isoda
 
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜griddb
 
Wandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfYuya Yamamoto
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
 
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料直久 住川
 
なにわテック20180127
なにわテック20180127なにわテック20180127
なにわテック20180127Natsutani Minoru
 

Similar to Batch Reinforcement Learning (20)

A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
 
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
ICLR2018におけるモデル軽量化(ICLR2018読み会@ PFN)
 
FPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティングFPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティング
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
 
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
 
Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例
Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例
Logicadの秒間16万リクエストをさばく広告入札システムにおける、gRPCの活用事例
 
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
 
Wandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdf
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料
 
なにわテック20180127
なにわテック20180127なにわテック20180127
なにわテック20180127
 

More from Takuma Oda

Drive-by Sensingによる都市のモニタリング
Drive-by Sensingによる都市のモニタリングDrive-by Sensingによる都市のモニタリング
Drive-by Sensingによる都市のモニタリングTakuma Oda
 
交通ゲーム理論入門
交通ゲーム理論入門交通ゲーム理論入門
交通ゲーム理論入門Takuma Oda
 
WWW 2021report public
WWW 2021report publicWWW 2021report public
WWW 2021report publicTakuma Oda
 
Reinforcement Learning For Taxi Rebalancing
Reinforcement Learning For Taxi RebalancingReinforcement Learning For Taxi Rebalancing
Reinforcement Learning For Taxi RebalancingTakuma Oda
 
INFOCOM 2018 Talk: MOVI
INFOCOM 2018 Talk: MOVIINFOCOM 2018 Talk: MOVI
INFOCOM 2018 Talk: MOVITakuma Oda
 
機械学習を活用したモビリティサービスの地図データ整備
機械学習を活用したモビリティサービスの地図データ整備機械学習を活用したモビリティサービスの地図データ整備
機械学習を活用したモビリティサービスの地図データ整備Takuma Oda
 

More from Takuma Oda (6)

Drive-by Sensingによる都市のモニタリング
Drive-by Sensingによる都市のモニタリングDrive-by Sensingによる都市のモニタリング
Drive-by Sensingによる都市のモニタリング
 
交通ゲーム理論入門
交通ゲーム理論入門交通ゲーム理論入門
交通ゲーム理論入門
 
WWW 2021report public
WWW 2021report publicWWW 2021report public
WWW 2021report public
 
Reinforcement Learning For Taxi Rebalancing
Reinforcement Learning For Taxi RebalancingReinforcement Learning For Taxi Rebalancing
Reinforcement Learning For Taxi Rebalancing
 
INFOCOM 2018 Talk: MOVI
INFOCOM 2018 Talk: MOVIINFOCOM 2018 Talk: MOVI
INFOCOM 2018 Talk: MOVI
 
機械学習を活用したモビリティサービスの地図データ整備
機械学習を活用したモビリティサービスの地図データ整備機械学習を活用したモビリティサービスの地図データ整備
機械学習を活用したモビリティサービスの地図データ整備
 

Batch Reinforcement Learning

  • 1. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Batch Reinforcement Learning 強化学習アーキテクチャ勉強会 January., 2020 Takuma Oda Mobility Intelligence Development Dept. Automotive Business Unit DeNA Co., Ltd.
  • 2. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 2 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 3. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 3 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 4. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Challenges of Real-World Reinforcement Learning 1. Training off-line from the fixed logs of an external behavior policy. 2. Learning on the real system from limited samples. 3. High-dimensional continuous state and action spaces. 4. Safety constraints that should never or at least rarely be violated. 5. Tasks that may be partially observable, alternatively viewed as non-stationary or stochastic. 6. Reward functions that are unspecified, multi-objective, or risk-sensitive. 7. System operators who desire explainable policies and actions. 8. Inference that must happen in real-time at the control frequency of the system. 9. Large and/or unknown delays in the system actuators, sensors, or rewards. G. Dulac-Arnold, D. Mankowitz, and T. Hester. Challenges of Real-World Reinforcement Learning. arXiv e-prints, art. arXiv:1904.12901, Apr 2019.
  • 5. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Challenges of Real-World Reinforcement Learning 1. すでに収集された固定のログから学習 2. 高次元、連続的な状態、行動空間 3. 安全面における制約 4. 部分観測タスク 5. 報酬設計:複数の目的関数、リスク選好 6. 方策の説明可能性 7. 推論の応答性 8. 状態、行動、報酬取得の大幅な遅れ
  • 6. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Data-Driven Deep Reinforcement Learning  スタティックなデータセットから汎用モデルを学習する機械学習タスクと異なり、強化学習は実 験(学習)ごとにオンラインで環境に対して相互作用しながらデータ収集が必要  自動運転、ロボットなどの多くの実世界の問題では正確なシミュレーション環境を作ることが難 しいが、実環境からのデータ収集はコストや安全性、時間的にハードルが高い  ほとんどのアプリケーションではすでになんらかの方策によって相互作用して収集した大量の データが手元にある => このデータセットを強化学習に活用することができれば、汎用的なモデルを学習しやすくなる上、 シミュレータレスで学習が可能となり、社会実装への道が一気に広がる https://bair.berkeley.edu/blog/2019/12/05/bear/
  • 7. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Batch RL / Fully Off-policy RL  環境との相互作用を一切行わず、固定のデータセット(過去に別の方策を使って収集した報酬を 含むデータ)のみから最適な方策を学習 e.g. 人間の行動、すでにデプロイされたヒューリスティックな方策など  Behavioral cloning / Imitation Learning / Inverse RL ⁃ 報酬データが得られない場合やデータ収集用の方策の質が高ければ有効なアプローチ ⁃ Distributional shiftに対応するため、GAILなど多くのアルゴリズムでは追加のデータ収集が必要  “Off-policy” Deep RL ⁃ Fully off-policyの条件下では上手く学習が進まない
  • 8. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 8 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 9. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. “Off-policy” Deep RL  前提知識 ⁃ Q-learningのようなoff-policyアルゴリズムは、原則としては、どのような方策でデータ収集を 行っても最適な方策の学習が可能 ⁃ 近年のモダンなoff-policy deep RL アルゴリズムはExperience Memoryにデータを貯めておき、 データ収集と学習を交互に行う ⁃ 行動方策は near-on-policy exploratory policy: e.g) e-greedy
  • 10. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  実験条件 ⁃ Final Buffer • DDPGを学習するまでの全ての遷移を保存 • 初期〜最適方策までの幅広いstate-actionを網羅 ⁃ Concurrent • Behavioral DDPGとoff-policy DDPGを同時に学習 • どちらも同一のデータセットから学習 ⁃ Imitation • 学習後のDDPGをエキスパートとしてデータ生成  結果 ⁃ 全ての条件(Concurrentでさえ)でoff-policyはbehavioralに比べて優位に悪いパフォーマンス ⁃ 初期方策における状態分布の違いだけでパフォーマンスに大きく影響する Off-Policy Deep Reinforcement Learning without Exploration Scott Fujimoto, David Meger, Doina Precup ; ICML, 2019.
  • 11. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Mean squared Bellman error  Bellman equation  Mean squared Bellman error ⁃ 多くのアルゴリズム(DDPG, SAC)では学習する価値関数のロス関数としてMSBEを用いる ⁃ バッチデータのサンプルで計算されたロスはバッチ中の状態行動分布( state-action visitation distribution)で平均されている ⁃ 本来最小化したいロスは学習中の方策における状態行動分布で平均されたもの
  • 12. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Extrapolation Error / Bootstrapping Error  データに存在しないstate-actionの価値を誤って非現実な値に見積もってしまう  maxオペレーションにより価値の過大評価が起こる  On-policyではこの ”optimism in the face of uncertainty” が有益なexplorationとなるため、結果として 不確実性の高い状態周辺のデータがより優先的に収集されるようになり、推定価値が是正される  Off-policyでは新たなデータ収集が行われないため、extrapolation errorを是正できない バッチの行動分布 推定価値
  • 13. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 13 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 14. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Reinforcement Learning from Imperfect Demonstrations Y Gao, J Lin, F Yu, S Levine, T Darrell ; ICML, 2018.
  • 15. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Method ある状態において悪い行動のデータが観測されな かった場合、行動自体が適切だったのか、もしく はその状態において全ての行動が良かったのかど うか判別できない => 観測されていない行動のQが上昇するのを抑制 したい  Soft V*とQ*, π*が満たす関係を制約し、 Maximum Entropy RLの目的関数から導出  PG勾配はQ(s,a)を上昇させるときにはV(s)を減 少させようとする  V(s)を減少させることは、VとQのsoftmaxの制 約により、観測されていない行動のQを減少さ せる働きを持つ この項がSoft Q-learningとの差 Soft V*とQ*, π*が満たす関係
  • 16. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Normalized Actor-Critic Soft Q-learningとの違いは勾配のみ 予めReplay bufferとして収集したデモンスト レーションデータを用意しておく
  • 17. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  Torcs(レースゲーム): 画像入力(状態)、離散行動  学習済みのエキスパート方策からデータセットを作成し、DQfDやBC(cross entropy)などと比較 デモンストレーションデータのみから学習 事前学習後に環境で学習
  • 18. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  一部のデータを欠陥させた実験(行動をargmin Q(s,a)に置換) デモンストレーションを30%欠陥させて学習 10000遷移のみのデモンストレーションから学習
  • 19. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Off-Policy Deep Reinforcement Learning without Exploration Scott Fujimoto, David Meger, Doina Precup ; ICML, 2019.
  • 20. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Method  方針 ⁃ バッチデータの状態行動分布からサンプリングし、その中で最も価値の高い行動を選択  Generative Model ⁃ バッチデータの行動方策を再現する生成モデル(Conditional VAE)を学習する  Perturbation network ⁃ (行動が連続値であるため)生成モデルのサンプリングを抑えるためにサンプリングされた 行動値aから[-Φ, Φ]の範囲で最も行動価値が高い行動値に調整する ⁃ DDPGと同様にQ-networkの出力を最大化するように学習
  • 21. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Method  Clipped Double Q-learning ⁃ 未来の不確定性に対してペナルティを与えるため、二つのQ-networkの最小値をターゲットに 使うClipped Double Q-learningを踏襲し、min側に比重を置いたsoft minimumを使う ⁃ パラメータλで不確定性のペナルティ度合いを調整できる  Policy ⁃ 生成モデルからサンプリングして、Perturbation networkで微調整した行動の中で最も行動価 値の高い行動を選択する ⁃ n, Φにより模倣学習と強化学習のトレードオフを調整できる ⁃ Φ=0, n=1であればbehavioral cloning、n->∞でQ-learning
  • 22. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Batch-Constrained deep Q-learning CVAEのEncoder, Decoderを更新 生成モデルから次状態s’における行動を n個サンプリング Perturbation networkでサンプリングされた 行動値を調整 target networksのsoft minimumによる ターゲットを算出し、Q-networkを更新 Perturbation networkを更新
  • 23. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment 全てのタスクでBCQがBehavioralと同等以上を達成 ImitationタスクではBC(Behavioral Cloning)がベスト Imperfect demonstrationsでは圧倒的にBCQが優位
  • 24. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine; NeurIPS, 2019.
  • 25. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Support Constraint  BCQはBehavioral Cloningと同様に学習する方策が元の行動方策の分布に近くなるように(暗に)制 限していたが、これは制限が強すぎる  例えば完全にランダムな方策から学習された方策は原理的には(サンプル数が十分あれば)最適 な方策が学習できるはずだが、BCQだと元の方策に近くなってしまう  バッチデータの方策のsupportが一致する、つまりバッチ方策が一定確率以下の行動は学習方策で も確率が0となるような方策に制限する
  • 26. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Maximum Mean Discrepancy (MMD)  どのように学習方策に対してSupport constraintを適応できるか  サンプルした行動間のMMD距離をsupport constraint充足の指標に使う  少ないサンプル数(<10)で計算したMMDにより二つの分布のサポートの違いを判別可能であるこ とを実験的に確認(サンプル数が多すぎると分布一致の制約となってしまう)  MMDがε以下という制約のもと、Dual gradient descentで方策のパラメータを更新
  • 27. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. BEAR Q-learning  5. BCQを拡張して、K個のQ-networkのsot minimumをターゲットとして使う  8. MMD制約のもとDual gradient descentで方策のパラメータを更新
  • 28. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  準最適な方策(学習途中のモデル)から生成したデータをバッチデータとして比較  BEAR-QLはBCQを上回る性能
  • 29. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Experiment  MMDの代わりにKL Divergenceを用いた場合
  • 30. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次 30 背景 なぜ従来のアルゴリズムでは学習できないのか? アルゴリズム紹介:NAS, BCQ, BEAR-QL 1 2 3 まとめ4
  • 31. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Summary  総論 ⁃ バッチ強化学習が上手く機能すれば、シミュレーションに頼らずに学習が可能となり、Sim2Real Gapに悩まされるこ とがなくなる ⁃ Fully off-policy の条件ではExtrapolation Errorによって従来のアルゴリズムでは学習が上手く進まない ⁃ バッチ強化学習のアルゴリズムは本発表で紹介した手法以外にも多くの手法が提案されている  実世界の適用に向けて ⁃ シミュレーションを用いずに、バッチデータを使って新しい方策のパフォーマンスを評価する手法が必要( Off- policy Policy Evaluation) ⁃ ほとんどのアプリケーションでは、実世界にデプロイする前に、ケースや条件ごとのテストは必要 => 結局ある程度のシミュレータは必要?
  • 32. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 参考文献  G. Dulac-Arnold, D. Mankowitz, and T. Hester. Challenges of Real-World Reinforcement Learning. ICML, 2019.  Yang Gao, Huazhe Xu, Ji Lin, Fisher Yu, Sergey Levine, and Trevor Darrell. Reinforcement learning from imperfect demonstrations. ICML, 2018.  Scott Fujimoto, David Meger, and Doina Precup. Off-policy deep reinforcement learning without exploration. ICML, 2019.  Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. Stabilizing off-policy q-learning via bootstrapping error reduction. NeurIPS, 2019.

Editor's Notes

  1. 推定行動価値Q(s, a)はバッチデータに含まれない(s’, a‘)の推定価値Q(s’, a’)に影響されるが、Q(s’, a’)の精度は全く保証されていないため、maxオペレーションにより価値の過大評価が起こり、結果的にエラーが蓄積かつ伝播する