Enviar pesquisa
Carregar
Gunosyデータマイニング研究会 #118 これからの強化学習
•
4 gostaram
•
5,783 visualizações
圭輔 大曽根
Seguir
Gunosyデータマイニング研究会の資料です
Leia menos
Leia mais
Dados e análise
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 39
Baixar agora
Baixar para ler offline
Recomendados
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑
Seiji Takahashi
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
Hiroaki Kudo
A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation
WrangleConf
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Cloudera Japan
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
Hiroaki Kudo
Recomendados
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑
Seiji Takahashi
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
Hiroaki Kudo
A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation
WrangleConf
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Cloudera Japan
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
Hiroaki Kudo
マイクロサービスとABテスト
マイクロサービスとABテスト
圭輔 大曽根
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
圭輔 大曽根
記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理
圭輔 大曽根
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97
圭輔 大曽根
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
Hiroaki Kudo
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
累計DL数3,600万のアプリを成長させ続けるためのピボット
累計DL数3,600万のアプリを成長させ続けるためのピボット
圭輔 大曽根
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
圭輔 大曽根
d3jsハンズオン @E2D3ハッカソン
d3jsハンズオン @E2D3ハッカソン
圭輔 大曽根
2014/06/13 若手Webエンジニア交流会発表資料「博士課程の新卒エンジニアがデータ分析環境を作った話」
2014/06/13 若手Webエンジニア交流会発表資料「博士課程の新卒エンジニアがデータ分析環境を作った話」
圭輔 大曽根
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
圭輔 大曽根
5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)
圭輔 大曽根
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
圭輔 大曽根
Mais conteúdo relacionado
Destaque
マイクロサービスとABテスト
マイクロサービスとABテスト
圭輔 大曽根
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
圭輔 大曽根
記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理
圭輔 大曽根
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97
圭輔 大曽根
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
Hiroaki Kudo
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Destaque
(7)
マイクロサービスとABテスト
マイクロサービスとABテスト
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
記事分類における教師データおよびモデルの管理
記事分類における教師データおよびモデルの管理
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Mais de 圭輔 大曽根
累計DL数3,600万のアプリを成長させ続けるためのピボット
累計DL数3,600万のアプリを成長させ続けるためのピボット
圭輔 大曽根
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
圭輔 大曽根
d3jsハンズオン @E2D3ハッカソン
d3jsハンズオン @E2D3ハッカソン
圭輔 大曽根
2014/06/13 若手Webエンジニア交流会発表資料「博士課程の新卒エンジニアがデータ分析環境を作った話」
2014/06/13 若手Webエンジニア交流会発表資料「博士課程の新卒エンジニアがデータ分析環境を作った話」
圭輔 大曽根
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
圭輔 大曽根
5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)
圭輔 大曽根
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
圭輔 大曽根
Mais de 圭輔 大曽根
(7)
累計DL数3,600万のアプリを成長させ続けるためのピボット
累計DL数3,600万のアプリを成長させ続けるためのピボット
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
d3jsハンズオン @E2D3ハッカソン
d3jsハンズオン @E2D3ハッカソン
2014/06/13 若手Webエンジニア交流会発表資料「博士課程の新卒エンジニアがデータ分析環境を作った話」
2014/06/13 若手Webエンジニア交流会発表資料「博士課程の新卒エンジニアがデータ分析環境を作った話」
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
Gunosyデータマイニング研究会 #118 これからの強化学習
1.
これからの強化学習 大曽根 圭輔(Gunosy Inc.) 2017年
4月 12日
2.
- 1.3章 - 価値反復に基づくアルゴリズム -
1.4章 - 方策勾配に基づくアルゴリズム 今日の範囲: これからの機械学習
3.
発表者と強化学習の出会い 10年前に研究室配属された時に先輩がやってた - そもそも当時はあまり流行ってなかった - 当時はロボットの文脈で使われことも多く、 環境の離散化に苦戦 -
難しそうなのであきらめた
4.
これからの機械学習 - 1.3章 - 価値反復に基づくアルゴリズム 行動価値関数Qを学習し、最適な方策を求める -
1.4章 - 方策勾配に基づくアルゴリズム - 方策を行動価値関数と別に確率的にパラメタライズされた モデルとして表現し、パラメタを最適化する
5.
これからの機械学習 - 1.3章 - 価値反復に基づくアルゴリズム 行動価値関数Qを学習し、最適な方策を求める -
1.4章 - 方策勾配に基づくアルゴリズム - 方策を行動価値関数と別に確率的にパラメタライズされた モデルとして表現し、パラメタを最適化する
6.
1.3章でやること 行動価値関数を推定することで => 方策の良さを評価する - 2つのアルゴリズムを紹介 -
Sarsa - ある方策πのもとでの行動価値関数について成り立つベルマン方程式に基づく - Q-learning - 最適行動価値関数について成り立つ再帰式であるベルマン最適方程式に基づく - 価値反復法で学習
7.
1.1節では多腕バンディットを紹介 状態も変化しない 環境も変化しない おさらい
8.
1.2節では状態をマルコフ決定過程で記述 状態空間 S 行動空間 A(s) 初期分布
P0 状態遷移確率 P(s’|s, a) 報酬関数 r(s, s’, a) おさらい
9.
おさらい ステップtの際の 次の状態 報酬
10.
エージェントの行動 - 方策 π(a|s) -
行動 A(st) ~ π(a|St) 報酬の扱い - 割引報酬和 - γが大きければより長期的に有益な行動を高く評価するようになる おさらい
11.
1.3章でやること 行動価値関数を推定することで => 方策の良さを評価する - 2つのアルゴリズムを紹介 -
Sarsa - ある方策πのもとでの行動価値関数について成り立つベルマン方程式に基づく - Q-learning - 最適行動価値関数について成り立つ再帰式であるベルマン最適方程式に基づく - 価値反復法で学習
12.
1.3.1 価値関数の推定 状態価値関数 V(s) =>
特定の方策におけるある状態以降の利得の期待値、これを最大化したい 行動価値関数 Q(s, a) => 特定の状態で特定の行動をした際の収益の期待値
13.
状態価値関数を導出するよ モンテカルロ法ですべての状況の状態価値関数を求めれば良いが時間がかかるよ => 各状況における各状況の勝率を求める => 次元が大きすぎて最適化できない 1.3.1
価値関数の推定
14.
1.3.2 ベルマン方程式 ベルマン方程式の導出
15.
1.3.2 ベルマン方程式 第一項 第二項
16.
1.3.2 ベルマン方程式 第一項 第二項 とみなせる
17.
1.3.2 ベルマン方程式 第一項 第二項 とみなせる
18.
1.3.2 ベルマン方程式 これらをまとめると状態価値関数に関するベルマン方程式が得られる
19.
1.3.2 ベルマン方程式 同様に、行動価値関数についても 次の状態(s’)に遷移する確率 現在の状態、行動、次の状態に応じたり利得 次の状態の割引報酬和 であるから
20.
1.3.3 Sarsa ベルマン方程式を試行錯誤による経験で解くアルゴリズム は学習率
21.
1.3.3 Sarsa TD誤差 Sarsaの式変形 TD誤差 (更新がなくなるとこの項が
0になるので収束を図ることができる ) TD = Temporal Difference
22.
1.3.4 ベルマン最適方程式 1.2節より最適行動価値関数というものがあるのでこれを代入 Vの右辺に方策 (π)が含まれていない
23.
1.3.5 Q-learning Q-learning (Deep
Q Networkで有名) Sarsaと同様に学習が収束している場合には第 2項が0になる
24.
SarsaやQ-learningで得た価値関数を指針として使うことで、良い方策へと更新する - 1.4章で述べる方策反復法で方策を最適化する - greedyアルゴリズムなどで価値関数から簡単に計算できる方策に限定する -
ε-greedyアルゴリズムのように確率 εでランダムな行動を取るようにしないと収束しない 1.3.6 方策の獲得と価値反復法
25.
- 1.3章 - 価値反復に基づくアルゴリズム 行動価値関数Qを学習し、最適な方策を求める -
1.4章 - 方策勾配に基づくアルゴリズム - 方策を行動価値関数と別に確率的にパラメタライズされた モデルとして表現し、パラメタを最適化する これからの機械学習
26.
1.4 方策勾配に基づくアルゴリズム ゴルフ問題の例 行動関数を関数近似する
27.
1.4.1概要
28.
1.4.2 アルゴリズムの枠組み 方策勾配法は方策をモデル化して最適化すること 方策をパラメータθで記述し、下式で更新する 更新量 は以下で記述することができる
29.
確率的方策による行動 方策の例として、ソフトマックス関数やガウス関数が考えられる 他にもいろいろありそう。一時期流行ったGAでのルーレット選択的な
30.
方策の評価 方策の良さを評価したい Jを具体的に定義する 平均報酬和 割引報酬和
31.
方策の更新 最適なパラメータを解析的に導出することは困難であるため、勾配法でパラメータ推定 を行う ηは更新幅を決定するパラメータ、 J(θ)は、偏微分を用いて下記のように表現できる
32.
方策の更新 さらに変形して
33.
勾配の近似 2つのアプローチがある QをRで近似 Qを線形モデルで近似 方策のモデル (Actor)と行動価値関数のモデルの両方を別々にモデル化する方法を Actor-Criticアルゴリズムという
34.
Qを線形モデルで近似 勾配の近似 特徴ベクトルに確率的方策モデルの対数勾配を採用し、近似
35.
自然方策勾配法 パラメータ間の距離をユークリッド距離ではなくKLダイバージェンスで定める (KLダイバージェンスは距離尺度ではない)
36.
REINFORCEアルゴリズム 行動価値関数QをRで近似する に を代入し以下の式を得る
37.
ベースラインを導入し、推定分散を小さくする REINFORCEアルゴリズム を用いて下式を更新
38.
wというシンプルなパラメータのみで記述できる 自然方策勾配法
39.
行動価値関数を学習する1.3章と異なり、方策を学習する 方策をパラメータ表現し、具体的なアルゴリズムを紹介 行動価値関数を学習するアルゴリズムと比較して、連続の状態を扱いやすくなるというメ リットがある まとめ
Baixar agora