5. 発表���
● DQNに報酬�分布を�ち�んだ論文 ’A Distributional Perspective on
Reinforcement Learning’ を�に、最近���について��ます
● 発表に出てくる論文
○ Parametric Return Density Estimation for Reinforcement Learning
○ A Distributional Perspective on Reinforcement Learning
○ DISTRIBUTIONAL POLICY GRADIENTS
○ (THE REACTOR: A FAST AND SAMPLE-EFFICIENT ACTOR-CRITIC AGENT FOR
REINFORCEMENT LEARNING)
○ Distributional Reinforcement Learning with Quantile Regression
23. 結局、Wesserstein距離�どうなった�?
● 使ってない
● ‘We note that, while these algorithms appear unrelated to the Wasserstein
metric, recent work (Bellemare et al., 2017) hints at a deeper connection’らし
いけど、よくわからなかった
● こ�点�後続���で少し���ーされている