SlideShare uma empresa Scribd logo
1 de 16
Mastering Atari, Go, Chess
and Shogi by Planning with a
Learned Model
調和系工学研究室 B4 織田智矢
Julian Schrittwieser,1 Ioannis Antonoglou,1;2 Thomas Hubert,1
Karen Simonyan,1 Laurent Sifre,1 Simon Schmitt,1 Arthur Guez,1
Edward Lockhart,1 Demis Hassabis,1 Thore Graepel,1;2 Timothy Lillicrap,1
David Silver1;2
1DeepMind, 6 Pancras Square, London N1C 4AG.
2University College London, Gower Street, London WC1E 6BT.
概要
• 環境の動作と戦略を同時かつEnd-to-Endに学習する手法の提案
• 木ベースのプランニング手法は(モンテカルロ木など)完璧に
シミュレートできる環境で多くの成功を収めている
• 提案手法はプランニングに最も直接関係する量(報酬、行動選
択方策、価値関数)を予測するモデルを学習
• 事前知識を与えることなく囲碁・チェス・将棋でAlphaZero、
AtariでR2D2(SOTA)を上回る
背景
• チェス・囲碁・将棋などのドメインではAlphaZero等のModel-
Basedな手法が有効
• atari2600のような視覚的な入力を行うドメインはModel-Free
な手法が有効
• 両ドメインに強い汎用的な手法はなかった
• 提案手法はAlphaZeroを改良し,シングルエージェントドメイ
ンや,中間タイムステップで報酬を含むドメインなど,より広
範囲な環境に拡張
強化学習おさらい
強化学習の枠組み
• s : 状態 (state)
• a : 行動 (action)
• r : 報酬 (reward)
• エージェントがある行動atを行って,
環境から次の状態st+1と報酬rt+1を受け取る
という枠組みが基本である
出典 : https://qiita.com/Hironsan/items/56f6c0b2f4cfd28dd906
強化学習の大まかな分類
Model-Free RL
• 環境に対する経験から直接価値関数や方策の学習
を行う
• 一般的なQ学習や前ページのスライドはModel-
Free
Model-Based RL
• まず環境に対する経験から環境のモデルを学習
• そのモデルからnステップのサンプルを取得して価
値関数や方策を学習する
(これをプランニングという)
出典 : https://shirakonotempura.hatenablog.com/entry/2019/02/08/162541, Reinforcement
Learning: An Introduction, R Sutton & A Barto, p.162
学習の流れ
探索について(将棋を例に)
• 一般的な木探索では,それぞれのノード
は次の現実の局面を評価する(ある駒を
動かしたら次の局面は…)
• 提案手法(MuZero)では,現実の局面で
はなく,独自の隠れ状態sに変換
• ゲーム木が右図のように作成されるが,
すべてのノードは隠れ状態sである
つまり,ある局面である行動aを取ったと
きの次の局面を生成するモデルが必要な
い!(学習によって自動的に獲得)
モデルの概要
状態・ダイナミクス・予測の3つのコン
ポーネントで構成
モデルの動作
(A) モデルを仕様したプランニングの方法
• 前の隠れ状態𝑠 𝑘−1と候補行動𝑎 𝑘をダイナミクス関
数𝑔に渡し即時報酬𝑟 𝑘
と次の隠れ状態𝑠 𝑘
を取得
• 初期状態である𝑠0は表現関数ℎから取得
(B) 環境とのインタラクション
• 𝑎 𝑡+1は探索方策𝜋 𝑡から決定
• 環境へ 𝑎 𝑡+1
を渡し, 新しい観測𝑜𝑡+1と報酬𝑢 𝑡+1を受
け取る
• エピソード終わりに履歴をReplay Bufferに保存
隠れ状態 : 𝑠
行動 : 𝑎
報酬 : 𝑟
価値関数 : 𝑣
次行動の確率分布 : 𝒑
(A)モデルを使用したプランニング詳しく
• MCTS(Monte Carlo Tree Search)を一般化した手法を使用
MCTSのノードは を保持する
• N:訪れた数, Q:評価値, P:方策(次行動の確率分布), R:報酬, S:状態
MCTSは次の3ステップ
1. Selection
• ルートノード(𝑠0)から葉ノードまで評価値が高いノードを選択(葉ノード到達をlとおく)
2. Expansion
• ダイナミクス関数から 𝑟 𝑙
, 𝑠 𝑙を受け取り, 𝑅 𝑠 𝑙−1
, 𝑎 𝑙
= 𝑟 𝑙
, S 𝑠 𝑙−1
, 𝑎 𝑙
= 𝑠 𝑙
を現在のノードへ
• {𝑁 = 0, 𝑄 = 0, 𝑃 = 𝒑𝒍}で新しい葉ノード作成
3. Backup
• 親ノードのQを計算,N+=1,
𝑣 𝑡, 𝜋 𝑡 = 𝑀𝐶𝑇𝑆 𝑠𝑡
𝑎 𝑡~𝜋 𝑡
探索方策πはルートノードからの各
行動のノードNに比例
具体的な計算式
For k=l…1
lは葉ノード
UCBベースの木探索手法
c1, c2は評価値Qに対する, 前の行動確率分布Pの影響を制御するイパーパラメータ
モデルの概要
(C) モデルの訓練
• 履歴はReplay Bufferからサンプリング
• 表現関数ℎにサンプリングした履歴から過去
の観測𝑜1, ⋯ , 𝑜𝑡を入力
• モデルはKステップにアンロールされる
• 各ステップkでダイナミクス関数𝑔に𝑠 𝑘−1と
実際にとった行動𝑎 𝑡+𝑘
を入力
これらのℎ, 𝑔, 𝑓の関数(表現,ダイナミク
ス,予測)は3つの量を予測するため
BPTTで同時にend-to-endで学習
3つの量: 𝒑 𝑘
≈ 𝜋 𝑡+𝑘, 𝑣 𝑘
≈ 𝑧𝑡+𝑘, 𝑟𝑡+𝑘 ≈ 𝑢 𝑡+𝑘
𝑧𝑡+𝑘とは最終報酬(board game) or n-step
return(Atari)
隠れ状態 : 𝑠
行動 : 𝑎
報酬 : 𝑟
価値関数 : 𝑣
次行動の確率分布 : 𝑝
モデルの学習概要
プランニングに直接関係がある将来の局面のみを予測したい
方策,価値関数,即時報酬を予測のが目的であるため
隠れ状態は現実の状態と対応が無い
つまり,この3つの量に起因する隠れ状態を学習によって獲得
隠れ状態: 𝑠𝑣 𝑘−1
観測
観測を隠れ状態に変換
𝑠0 = ℎ(o)
次の隠れ状態𝑠 𝑘
前の隠れ状態と,仮の次の行動を受
け取る再帰プロセスによって更新
𝑟 𝑘
, 𝑠 𝑘
= g(𝑠 𝑘−1
, 𝑎 𝑘
)
方策 p
価値関数 v
即時報酬 r
再帰プロセスの各ス
テップにおいて,こ
れら3つの値を予測
𝒑 𝑘 ≈ 𝜋 𝑡+𝑘, 𝑣 𝑘
≈ 𝑧𝑡+𝑘, 𝑟𝑡+𝑘 ≈ 𝑣 𝑡+𝑘
𝑧𝑡+𝑘とは最終報酬(board game) or
n-step return(Atari)
MuZeroアルゴリズム
1. MCTSによって履歴を貯める (自己対戦)
2. 履歴からサンプルしモデルをK-stepアンロールして学習
• 予測方策 と探索方策(実際にとる行動)の誤差を最小化 𝒑 𝑘 ≈ 𝜋 𝑡+𝑘
• 予測価値と目標価値の誤差を最小化 𝑣 𝑘
≈ 𝑧 𝑡+𝑘
• 予測報酬と環境からの報酬の誤差を最小化 𝑟𝑡+𝑘 ≈ 𝑢 𝑡+𝑘
具体的には以下の誤差関数𝑙 𝑡(𝜃)を最小化(最後の項はL2正則化)
ドメインによる学習方法の違い
ボードゲーム
• 1手打つのに800回のシミュレーション
• ゲーム終了後すぐReplay Bufferに保存
• Replay Bufferは100万ゲーム保持
• 学習時Replay Bufferから取り出すときは完全ランダムに
Atari
• 行動空間が小さいため1つの行動決定に50回のシミュレーション
• ゲーム時間が長いため200手毎にReplay Bufferに保存
• Replay Bufferは12.5万x200を保持
• 取り出す時は優先度を計算して取り出す
その他ハイパラ等様々な違いあり
結果
MuZeroが他の手
法を凌駕している
ボードゲーム
オレンジ:AlphaZero
青:MuZero(提案手法)
Atari
オレンジ: R2D2(SOTA)
青:MuZero(提案手法)
実線:平均値
破線:中央値
その他実験結果
(A)MCTS探索時間とEloレート
• AlphaZero(シミュレータ)と
MuZero(学習済みモデル)の探索
時間とEloレートを比較
• MuZeroは実環境なしにも関わら
ずスケーラビリティが高い
(B) Atari(Ms. Pacman)での1シ
ミュレーションでの行動試行回
数と平均報酬
(C) トレーニングステップと平
均報酬
(D) トレーニングステップ(行動
試行回数別)と平均報酬
まとめ
• MuZeroは事前知識(モデル)を与えることなく,チェス・将棋・
囲碁でAlphaZeroと同等の性能を発揮し,AtariでSOTAを上
回った
• モデルベースな手法にも関わらず,モデルは学習によって自動
的に獲得する
• AlphaZeroとの大きな違いとして,行動aを行った後の状態は環
境からでなく,自身のモデル(ダイナミクス関数)から次の隠れ
状態を生成
• MCTSをゼロサムゲームだけでなく,シングルエージェントド
メインに一般化

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 
A3C解説
A3C解説A3C解説
A3C解説
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 

Semelhante a Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)

大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法
Takuya Akiba
 

Semelhante a Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) (12)

Rainbow
RainbowRainbow
Rainbow
 
大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法大規模グラフ解析のための乱択スケッチ技法
大規模グラフ解析のための乱択スケッチ技法
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
20170618論文読み会 伊藤
20170618論文読み会 伊藤20170618論文読み会 伊藤
20170618論文読み会 伊藤
 
モンテカルロサンプリング
モンテカルロサンプリングモンテカルロサンプリング
モンテカルロサンプリング
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
大山雄己 - 時空間制約と経路相関を考慮した歩行者の活動配分問題
大山雄己 - 時空間制約と経路相関を考慮した歩行者の活動配分問題大山雄己 - 時空間制約と経路相関を考慮した歩行者の活動配分問題
大山雄己 - 時空間制約と経路相関を考慮した歩行者の活動配分問題
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
DeepCas
DeepCasDeepCas
DeepCas
 

Mais de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Mais de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Último

Último (7)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)