SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
交差点の交通流におけるシミュレーション環境
を⽤いた深層強化学習に関する研究
修⼠2年 織⽥ 智⽮
北海道⼤学 ⼤学院情報科学研究院
情報理⼯学部⾨ 複合情報⼯学分野 調和系⼯学研究室
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
2
背景
交通渋滞は⼤きな社会問題
各国の1年間の経済損失
• アメリカ合衆国: $166 Billion [1]
• ⽇本 : 12兆円 [2]
• ヨーロッパ : EUR 100 billion [3]
⾃動運転やV2V(⾞々間通信)の普及
• ⽇本政府は2025年に完全⾃動運転を⽬標[4]
• 世界中の会社が⾃動運転技術を開発,実⽤化
• ITS専⽤周波数を活⽤した⾞⾞間通信システム[5]
(CVSS:Connected Vehicles Support Systems)
[1] David Schrank, B.E., Lomax, T.: 2019 urban mobility report (2019), https://static.tti.tamu.edu/tti.tamu.edu/documents/mobility-report-2019.pdf
[2] Performance Management of Road Administration in Japan, https://www.mlit.go.jp/road/management-e/index.html
[3] An official website of the European Union MOBILITY AND TRANSPORT, https://ec.europa.eu/transport/themes/urban/urban_mobility_en
[4] https://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20210615/roadmap. pdf
[5] ⾞⾞間通信システム, TOYOTA, https://toyota.jp/technology/safety/itsconnect/
【ITS Connect】右折時注意喚起
(⾞⾞間通信システム)[5]
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
3
渋滞の発⽣原因の代表例
• 交通は都市部などの⼀部エリアに集中
• その中の特定箇所の交通容量を超える交通需要が
流⼊すると渋滞が発⽣
• 交差点はそのボトルネックの代表例
交通容量1600 [台/時]
交通容量 700 [台/時]
交通容量1600 [台/時]
交通容量のボトルネック例
交差点に着⽬し交通容量の改善を⽬指す
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
4
交差点の渋滞改善
渋滞を改善する研究は2種類
• 環境側からのアプローチ(例: 信号制御)
• ⾞を直接制御するアプローチ(例: ⾞間距離制御)
のアプローチには限界
• 例: 信号には⻩⾊,全⽅向⾚の無駄な時間が存在
⾃⽴分散な意思決定で渋滞の改善
交差点の交通容量の改善は難しい
• ⼗字交差点4⽅向,速度⼀定,各最⼤3台の条件で
1677万通りの場合の数
ルールベースではなく強化学習
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
5
関連研究
交通シミュレーション
• Simulation of Urban Mobility(SUMO) [6]
強化学習
• Advantage Actor-Critic [7]
交通渋滞
• Flow Project [8]
• Emergence of intersection rules [9]
• Maintaining safety on highways [10]
Simulation of Urban Mobility (SUMO)
https://www.eclipse.org/sumo/
[6] P. A. Lopez et al., “Microscopic Traffic Simulation using SUMO,” 2018, [Online]. Available: https://elib.dlr.de/124092/.
[7] Mnih, V…, (2016). Asynchronous Methods for Deep Reinforcement Learning. Proceedings of The 33rd International Conference on Machine Learning
[8] C. Wu, A. Kreidieh, K. Parvate, E. Vinitsky, and A. M. Bayen, “Flow: A Modular Learning Framework for Autonomy in Traffic,” Oct. 2017, [Online].
Available: http://arxiv.org/abs/1710.05465.
[9] A. Pal, J. Philion, Y.-H. Liao, and S. Fidler, “Emergent Road Rules In Multi-Agent Driving Environments,” Nov. 2020, [Online]. Available:
http://arxiv.org/abs/2011.10753.
[10] M. Schutera, N. Goby, D. Neumann, and M. Reischl, “Transfer Learning versus Multi-agent Learning regarding Distributed Decision-Making in
Highway Traffic,” Oct. 2018, [Online]. Available: http://arxiv.org/abs/1810.08515.
Flow project figure eight
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
6
理想的な⾏動例
• 優先度を変更することにより,交通量が増加する例
– 全台速度⼀定,交差点進⼊→通過に1stepと仮定
4 step
car D
car C
タイミングチャート
Car A Car B Car C
t t + 1 t + 2
Car D
t + 3
Car C Car A Car B
t t + 1 t + 2
Car D
t + 3
静的なルール
理想
car A
car B
静的なルールと理想的な⾏動の⽐較
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
7
理想的な⾏動例
• 優先度を変更することにより,交通量が増加する例
3 step
理想的な⾏動により,交通容量が増加
car D
car C
タイミングチャート
Car A Car B Car C
t t + 1 t + 2
Car D
t + 3
Car C Car A Car B
t t + 1 t + 2
Car D
t + 3
静的なルール
理想
car A
強化学習対象車
car B
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
8
Harmo Traffic Simulator
• 運動⽅程式を⽤いてモデル化
• 速度,ステアリング⾓を制御
• ⾞間距離は最適速度模型[11]を
⽤いて決定
• 交差点での⾃⾝の優先度変更
可能
⾞の状態
優先度変更
⾏動
優先度変更⾏動
譲られる
Harmo Traffic Simulator
⾃動運転⾞両を再現した
シミュレータを開発
[11] M. Bando, K. Hasebe, A. Nakayama, A. Shibata, and Y. Sugiyama, Phys.
Rev. E 51, 1035 (1995).
タイミングチャートで⽰した
優先度変更⾏動の獲得
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
9
強化学習アーキテクチャ
• Advantage Actor-Critic[7]を⽤いた分散強化学習
• 並列にエピソードの軌跡を収集
• ⼀定数エピソードの軌跡を貯め,⽅策関数を更新
パラメータ 値
学習ステップ数 8M
学習対象⾞ 1台
並列数 8
バッファサイズ 16K
[7] Mnih, V…, (2016). Asynchronous Methods for Deep Reinforcement Learning. Proceedings of The 33rd International Conference on Machine Learning
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
10
環境設定
• 南北⽅向に優先道路
• ⾞の⽣成場所を予め設定
優先道路
(優先度 +3)
優先度: 0
優先度: 5 (2+3)
優先度: 4 (1+3)
優先度: 2
優先度: 1
優先度: 3 (0+3)
Spawn points
0.6 m/s
0.6 m/s
0.6 m/s
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
11
強化学習設定
エピソード設定
• 交差点進⼊前⼀定stepから開始
• 交差点進⼊後観測をすべて0ベクトル
• 全台が交差点通過後エピソード終了
強化学習
対象車
エピソード前
強化学習
対象車
強化学習
対象車
エピソード中 エピソード終了
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
12
強化学習設定
⾏動空間
• 2値: ⾏動なし or 優先度最低
観測空間
• 各⾞先頭3台の状態を相対的に⼊⼒
– ⽅向
– 速度
– 交差点までの距離
報酬
• 常に負の定数
• 強化学習⾏動を取った場合,最⼤4step分の負の報酬
(⾏動してもしなくて良い場合はノイズ)
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
13
エピソードの割合調査
優先度変更⾏動が有効な初期状態がどの程度存在
するか調査
• 南北⽅向に限定した状況で、譲る⾏動と譲らない⾏動
の 4096×2 通りの⾏動を記録し分析
強化学習⾏動
⾞の状態
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
14
南北に限定した場合の全通り結果
分析結果
• 変化なし: 2912 / 4096 (71.0%)
• 優先度変更⾏動によって向上: 552 / 4096 (13.5%)
• 優先度変更⾏動によって悪化: 631 / 4096 (15.4%)
step数の差
頻度
⼤部分が0
等しくサンプリングすると不均衡
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
15
アップサンプリング
事前に優先度変更⾏動によって向上した初期状態を
すべて格納
初期状態 A
初期状態 B
全初期状態
OR
単純アップサンプリングを⽤いて学習
𝑝
𝑝 = サンプリング割合 ∈ [0, 1]
1 − 𝑝
初期状態
事前に作成
重み付きでアップ
サンプリング
選ばれた初期状態
で強化学習実⾏
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
16
⽐較のためのベースライン
初期状態を⼀様乱数(サンプリング割合0.0)で
強化学習
• 南北⽅向のみの4096通りで実験
評価⽅法
• 予め全通り譲る⾏動・譲らない⾏動の報酬を記録
• Ground truth: 譲る⾏動によって報酬が改善したエピソー
ドにラベル1
• Prediction: 強化学習モデルによって報酬が改善した
エピソードにラベル1
混同⾏列
各種評価指標
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
17
アップサンプリングの性能評価
ベースラインとアップサンプリングを⽐較
• 南北⽅向のみの4096通りで実験
• サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較
各種評価指標とその増減
アップサンプリングにより⼤幅な改善
サンプリング
割合
ラベル Precision 差 Recall 差 F1-score 差
なし 1 0.67 0.00 0.01
0.2 1 0.93 +0.26 0.50 +0.50 0.65 +0.64
0.3 1 0.88 +0.21 0.81 +0.81 0.84 +0.83
0.4 1 0.90 +0.23 0.95 +0.95 0.93 +0.92
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
18
カウントベースアルゴリズム
アップサンプリングでは場合の数の増加に弱い
改善した初期状態 A
改善した初期状態 B
効果的なエピソード
バケット
過去に1度だけ実⾏済
エピソード: 報酬の辞書
初期状態 1, 報酬: -6.75
初期状態 2, 報酬: -8.20
全初期状態
OR 初期状態 1
① 過去に実⾏があるか確認
(ない場合追加)
② 改善した場合
バケット移動
初期状態 1,報酬: -6.50
全初期状態からの場合
のみ次のステップへ
𝑝
1 − 𝑝
𝑝 = サンプリング割合 ∈ [0, 1]
事前に正解ラベルが不要な対処法を提案
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
19
カウントベースアルゴリズムの性能評価
カウントベースアルゴリズムの各種指標の⽐較
• 南北⽅向のみの4096通りで実験
• サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較
カウントベースアルゴリズムもアップサンプリング同様に
⼤幅な改善
サンプリング
割合
ラベル Precision 差 Recall 差 F1-score 差
なし 1 0.67 0.00 0.01
0.2 1 0.92 +0.25 0.73 +0.73 0.82 +0.81
0.3 1 0.94 +0.27 0.72 +0.72 0.82 +0.81
0.4 1 0.94 +0.27 0.71 +0.71 0.81 +0.80
各種評価指標とその増減
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
20
カウントベースアルゴリズムの性能評価
学習の推移
• 縦軸: 全台が交差点を出るまでの4096通り(全通り)の平均
ステップ数
• 横軸: 強化学習のステップ数
強化学習なし: 全台が静的ルールに従った場合
最適⽅策: 全台が理想的な⽅策で⾏動した場合
アップサンプリング カウントベースアルゴリズム
強化学習なしの
ライン
最適⽅策の
ライン
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
21
場合の数増加
カウントベースアルゴリズムが4096から場合の
数が増加した場合の性能調査
• 3⽅向最⼤3台 (262,144)
• 4⽅向最⼤3台 (16,777,216)
評価⽅法
• 前回のように全通りは難しい
• 乱数シードを固定し,1万の初期状態をサンプリング
• 予めサンプリングしたエピソードを全通り調査し
正解ラベルを設定
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
22
サンプリングしたエピソード
サンプリングした1万のエピソードを全通り調査し,
強化学習が有効な数を調査
シードを固定しサンプリングした初期状態の内訳
評価に妥当な数がサンプリングできている
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
23
3⽅向 結果
3⽅向最⼤3台(262,144通り)の設定での実験結果
• サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較
場合の数が増加しても改善
サンプリング
割合
ラベル Precision 差 Recall 差 F1-score 差
なし 1 0.41 0.00 0.01
0.2 1 0.89 +0.48 0.37 +0.37 0.53 +0.52
0.3 1 0.93 +0.52 0.23 +0.23 0.37 +0.36
0.4 1 0.90 +0.49 0.19 +0.19 0.31 +0.30
各種評価指標とその増減
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
24
4⽅向 結果
4⽅向最⼤3台(16,777,216通り)の設定での実験結果
• サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較
サンプリング割合が増えるに従って改善
サンプリング
割合
ラベル Precision 差 Recall 差 F1-score 差
なし 1 0.28 0.01 0.02
0.2 1 0.18 -0.10 0.01 0.00 0.01 -0.01
0.3 1 0.69 +0.41 0.06 +0.05 0.11 +0.09
0.4 1 0.91 +0.63 0.45 +0.44 0.60 +0.58
各種評価指標とその増減
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
25
場合の数の増加 学習の推移
学習の推移
• 縦軸: サンプリングした1万のエピソードの平均ステップ数
• 横軸: 強化学習のステップ数
強化学習なし: 全台が静的ルールに従った場合
最適⽅策: 全台が理想的な⽅策で⾏動した場合
強化学習なしの
ライン
最適⽅策の
ライン
3⽅向 4⽅向
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
本研究の社会実装への問題点
• ⾞同⼠の通信
• ⾃動運転⾞両の普及
• 本研究のシミュレータで再現できていない部分
26
実社会への応⽤可能性
• : 既にITS Connectなど社会
実装が進んでおり実現可能
• : より現実に近い環境で学習・
評価によって実現可能
FURUNO ⾞々間通信製品
https://www.furuno.com/jp/gnss/case/furuno04
社会実装へ向けての次のステップ:
現実に近い環境での検証が必要
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
27
結論
• ⾃動運転を再現した優先度が変更可能なシミュレータ
を開発
• 観測するエピソードが不均衡な場合に効果的な
カウントベースアルゴリズムを提案
• タイミングチャートの譲り合い⾏動が,現実の交通の
特徴を捉えた表現であることを⽰した
• 優先度変更⾏動を⾞々間通信することにより
交通容量の増加可能性を⽰した
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved.
28
研究業績
国際学会(査読あり ⼝頭発表)(2件)
• Tomoya Oda, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Wara-
bino, Tomohiko Ogishi and Hideaki Tanaka, Deep Reinforcement Learning for Smooth Traffic
Flow at An Intersection, 26th International Symposium on Artificial Life and Robotics (AROB
26th 2021), Online
• Tomoya Oda, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Wara-
bino, Tomohiko Ogishi and Hideaki Tanaka, Development of a Traffic-Simulation Environment
Using RC Cars, Frontiers of Multi-Agent Systems (FMAS2020), Online
国内学会(査読なし ⼝頭発表)(1件)
• 織⽥智⽮, 横⼭想⼀郎, ⼭下倫央, 川村秀憲, 蕨野貴之, ⼤岸智彦, ⽥中英明, RC カーを⽤いた⾃
動運転⾞両シミュレーション環境の構築, 第20回複雑系マイクロシンポジウム, 06, オンライ
ン (2021)
発表予定(1件)
国内学会(査読なし ⼝頭発表)
• 織⽥智⽮, 横⼭想⼀郎, ⼭下倫央, 川村秀憲(北海道⼤学), 蕨野 貴之, ⼤岸智彦, ⽥中英明(KDDI
総合研究所), RCカーを⽤いた⾃動運転⾞両シミュレーション環境に関する研究,社会システ
ムと情報技術研究ウィーク(WSSIT), 虻⽥郡留寿都村(2022)
受賞(1件)
• 優秀プレゼンテーション賞(第20回複雑系マイクロシンポジウム)

Mais conteúdo relacionado

Mais procurados

[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究harmonylab
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose EstimationDeep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...ddnpaa
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出MPRG_Chubu_University
 
畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開 畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開 Shogo Muramatsu
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組みYoshitaka Ushiku
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 

Mais procurados (20)

[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
【論文紹介】 Attention Based Spatial-Temporal Graph Convolutional Networks for Traf...
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出
 
畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開 畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
A3C解説
A3C解説A3C解説
A3C解説
 

Semelhante a 交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...harmonylab
 
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learningharmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)harmonylab
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...harmonylab
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...harmonylab
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究harmonylab
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agentharmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Searchharmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...harmonylab
 
新たなモビリティサービスの動向
新たなモビリティサービスの動向新たなモビリティサービスの動向
新たなモビリティサービスの動向Masaki Ito
 

Semelhante a 交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究 (20)

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
修士論文
修士論文修士論文
修士論文
 
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learningOutracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
RAPiD
RAPiDRAPiD
RAPiD
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
新たなモビリティサービスの動向
新たなモビリティサービスの動向新たなモビリティサービスの動向
新たなモビリティサービスの動向
 

Mais de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 

Mais de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 

交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究

  • 1. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 交差点の交通流におけるシミュレーション環境 を⽤いた深層強化学習に関する研究 修⼠2年 織⽥ 智⽮ 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 調和系⼯学研究室
  • 2. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 2 背景 交通渋滞は⼤きな社会問題 各国の1年間の経済損失 • アメリカ合衆国: $166 Billion [1] • ⽇本 : 12兆円 [2] • ヨーロッパ : EUR 100 billion [3] ⾃動運転やV2V(⾞々間通信)の普及 • ⽇本政府は2025年に完全⾃動運転を⽬標[4] • 世界中の会社が⾃動運転技術を開発,実⽤化 • ITS専⽤周波数を活⽤した⾞⾞間通信システム[5] (CVSS:Connected Vehicles Support Systems) [1] David Schrank, B.E., Lomax, T.: 2019 urban mobility report (2019), https://static.tti.tamu.edu/tti.tamu.edu/documents/mobility-report-2019.pdf [2] Performance Management of Road Administration in Japan, https://www.mlit.go.jp/road/management-e/index.html [3] An official website of the European Union MOBILITY AND TRANSPORT, https://ec.europa.eu/transport/themes/urban/urban_mobility_en [4] https://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20210615/roadmap. pdf [5] ⾞⾞間通信システム, TOYOTA, https://toyota.jp/technology/safety/itsconnect/ 【ITS Connect】右折時注意喚起 (⾞⾞間通信システム)[5]
  • 3. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 3 渋滞の発⽣原因の代表例 • 交通は都市部などの⼀部エリアに集中 • その中の特定箇所の交通容量を超える交通需要が 流⼊すると渋滞が発⽣ • 交差点はそのボトルネックの代表例 交通容量1600 [台/時] 交通容量 700 [台/時] 交通容量1600 [台/時] 交通容量のボトルネック例 交差点に着⽬し交通容量の改善を⽬指す
  • 4. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 4 交差点の渋滞改善 渋滞を改善する研究は2種類 • 環境側からのアプローチ(例: 信号制御) • ⾞を直接制御するアプローチ(例: ⾞間距離制御) のアプローチには限界 • 例: 信号には⻩⾊,全⽅向⾚の無駄な時間が存在 ⾃⽴分散な意思決定で渋滞の改善 交差点の交通容量の改善は難しい • ⼗字交差点4⽅向,速度⼀定,各最⼤3台の条件で 1677万通りの場合の数 ルールベースではなく強化学習
  • 5. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 5 関連研究 交通シミュレーション • Simulation of Urban Mobility(SUMO) [6] 強化学習 • Advantage Actor-Critic [7] 交通渋滞 • Flow Project [8] • Emergence of intersection rules [9] • Maintaining safety on highways [10] Simulation of Urban Mobility (SUMO) https://www.eclipse.org/sumo/ [6] P. A. Lopez et al., “Microscopic Traffic Simulation using SUMO,” 2018, [Online]. Available: https://elib.dlr.de/124092/. [7] Mnih, V…, (2016). Asynchronous Methods for Deep Reinforcement Learning. Proceedings of The 33rd International Conference on Machine Learning [8] C. Wu, A. Kreidieh, K. Parvate, E. Vinitsky, and A. M. Bayen, “Flow: A Modular Learning Framework for Autonomy in Traffic,” Oct. 2017, [Online]. Available: http://arxiv.org/abs/1710.05465. [9] A. Pal, J. Philion, Y.-H. Liao, and S. Fidler, “Emergent Road Rules In Multi-Agent Driving Environments,” Nov. 2020, [Online]. Available: http://arxiv.org/abs/2011.10753. [10] M. Schutera, N. Goby, D. Neumann, and M. Reischl, “Transfer Learning versus Multi-agent Learning regarding Distributed Decision-Making in Highway Traffic,” Oct. 2018, [Online]. Available: http://arxiv.org/abs/1810.08515. Flow project figure eight
  • 6. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 6 理想的な⾏動例 • 優先度を変更することにより,交通量が増加する例 – 全台速度⼀定,交差点進⼊→通過に1stepと仮定 4 step car D car C タイミングチャート Car A Car B Car C t t + 1 t + 2 Car D t + 3 Car C Car A Car B t t + 1 t + 2 Car D t + 3 静的なルール 理想 car A car B 静的なルールと理想的な⾏動の⽐較
  • 7. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 7 理想的な⾏動例 • 優先度を変更することにより,交通量が増加する例 3 step 理想的な⾏動により,交通容量が増加 car D car C タイミングチャート Car A Car B Car C t t + 1 t + 2 Car D t + 3 Car C Car A Car B t t + 1 t + 2 Car D t + 3 静的なルール 理想 car A 強化学習対象車 car B
  • 8. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 8 Harmo Traffic Simulator • 運動⽅程式を⽤いてモデル化 • 速度,ステアリング⾓を制御 • ⾞間距離は最適速度模型[11]を ⽤いて決定 • 交差点での⾃⾝の優先度変更 可能 ⾞の状態 優先度変更 ⾏動 優先度変更⾏動 譲られる Harmo Traffic Simulator ⾃動運転⾞両を再現した シミュレータを開発 [11] M. Bando, K. Hasebe, A. Nakayama, A. Shibata, and Y. Sugiyama, Phys. Rev. E 51, 1035 (1995). タイミングチャートで⽰した 優先度変更⾏動の獲得
  • 9. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 9 強化学習アーキテクチャ • Advantage Actor-Critic[7]を⽤いた分散強化学習 • 並列にエピソードの軌跡を収集 • ⼀定数エピソードの軌跡を貯め,⽅策関数を更新 パラメータ 値 学習ステップ数 8M 学習対象⾞ 1台 並列数 8 バッファサイズ 16K [7] Mnih, V…, (2016). Asynchronous Methods for Deep Reinforcement Learning. Proceedings of The 33rd International Conference on Machine Learning
  • 10. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 10 環境設定 • 南北⽅向に優先道路 • ⾞の⽣成場所を予め設定 優先道路 (優先度 +3) 優先度: 0 優先度: 5 (2+3) 優先度: 4 (1+3) 優先度: 2 優先度: 1 優先度: 3 (0+3) Spawn points 0.6 m/s 0.6 m/s 0.6 m/s
  • 11. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 11 強化学習設定 エピソード設定 • 交差点進⼊前⼀定stepから開始 • 交差点進⼊後観測をすべて0ベクトル • 全台が交差点通過後エピソード終了 強化学習 対象車 エピソード前 強化学習 対象車 強化学習 対象車 エピソード中 エピソード終了
  • 12. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 12 強化学習設定 ⾏動空間 • 2値: ⾏動なし or 優先度最低 観測空間 • 各⾞先頭3台の状態を相対的に⼊⼒ – ⽅向 – 速度 – 交差点までの距離 報酬 • 常に負の定数 • 強化学習⾏動を取った場合,最⼤4step分の負の報酬 (⾏動してもしなくて良い場合はノイズ)
  • 13. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 13 エピソードの割合調査 優先度変更⾏動が有効な初期状態がどの程度存在 するか調査 • 南北⽅向に限定した状況で、譲る⾏動と譲らない⾏動 の 4096×2 通りの⾏動を記録し分析 強化学習⾏動 ⾞の状態
  • 14. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 14 南北に限定した場合の全通り結果 分析結果 • 変化なし: 2912 / 4096 (71.0%) • 優先度変更⾏動によって向上: 552 / 4096 (13.5%) • 優先度変更⾏動によって悪化: 631 / 4096 (15.4%) step数の差 頻度 ⼤部分が0 等しくサンプリングすると不均衡
  • 15. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 15 アップサンプリング 事前に優先度変更⾏動によって向上した初期状態を すべて格納 初期状態 A 初期状態 B 全初期状態 OR 単純アップサンプリングを⽤いて学習 𝑝 𝑝 = サンプリング割合 ∈ [0, 1] 1 − 𝑝 初期状態 事前に作成 重み付きでアップ サンプリング 選ばれた初期状態 で強化学習実⾏
  • 16. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 16 ⽐較のためのベースライン 初期状態を⼀様乱数(サンプリング割合0.0)で 強化学習 • 南北⽅向のみの4096通りで実験 評価⽅法 • 予め全通り譲る⾏動・譲らない⾏動の報酬を記録 • Ground truth: 譲る⾏動によって報酬が改善したエピソー ドにラベル1 • Prediction: 強化学習モデルによって報酬が改善した エピソードにラベル1 混同⾏列 各種評価指標
  • 17. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 17 アップサンプリングの性能評価 ベースラインとアップサンプリングを⽐較 • 南北⽅向のみの4096通りで実験 • サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較 各種評価指標とその増減 アップサンプリングにより⼤幅な改善 サンプリング 割合 ラベル Precision 差 Recall 差 F1-score 差 なし 1 0.67 0.00 0.01 0.2 1 0.93 +0.26 0.50 +0.50 0.65 +0.64 0.3 1 0.88 +0.21 0.81 +0.81 0.84 +0.83 0.4 1 0.90 +0.23 0.95 +0.95 0.93 +0.92
  • 18. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 18 カウントベースアルゴリズム アップサンプリングでは場合の数の増加に弱い 改善した初期状態 A 改善した初期状態 B 効果的なエピソード バケット 過去に1度だけ実⾏済 エピソード: 報酬の辞書 初期状態 1, 報酬: -6.75 初期状態 2, 報酬: -8.20 全初期状態 OR 初期状態 1 ① 過去に実⾏があるか確認 (ない場合追加) ② 改善した場合 バケット移動 初期状態 1,報酬: -6.50 全初期状態からの場合 のみ次のステップへ 𝑝 1 − 𝑝 𝑝 = サンプリング割合 ∈ [0, 1] 事前に正解ラベルが不要な対処法を提案
  • 19. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 19 カウントベースアルゴリズムの性能評価 カウントベースアルゴリズムの各種指標の⽐較 • 南北⽅向のみの4096通りで実験 • サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較 カウントベースアルゴリズムもアップサンプリング同様に ⼤幅な改善 サンプリング 割合 ラベル Precision 差 Recall 差 F1-score 差 なし 1 0.67 0.00 0.01 0.2 1 0.92 +0.25 0.73 +0.73 0.82 +0.81 0.3 1 0.94 +0.27 0.72 +0.72 0.82 +0.81 0.4 1 0.94 +0.27 0.71 +0.71 0.81 +0.80 各種評価指標とその増減
  • 20. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 20 カウントベースアルゴリズムの性能評価 学習の推移 • 縦軸: 全台が交差点を出るまでの4096通り(全通り)の平均 ステップ数 • 横軸: 強化学習のステップ数 強化学習なし: 全台が静的ルールに従った場合 最適⽅策: 全台が理想的な⽅策で⾏動した場合 アップサンプリング カウントベースアルゴリズム 強化学習なしの ライン 最適⽅策の ライン
  • 21. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 21 場合の数増加 カウントベースアルゴリズムが4096から場合の 数が増加した場合の性能調査 • 3⽅向最⼤3台 (262,144) • 4⽅向最⼤3台 (16,777,216) 評価⽅法 • 前回のように全通りは難しい • 乱数シードを固定し,1万の初期状態をサンプリング • 予めサンプリングしたエピソードを全通り調査し 正解ラベルを設定
  • 22. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 22 サンプリングしたエピソード サンプリングした1万のエピソードを全通り調査し, 強化学習が有効な数を調査 シードを固定しサンプリングした初期状態の内訳 評価に妥当な数がサンプリングできている
  • 23. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 23 3⽅向 結果 3⽅向最⼤3台(262,144通り)の設定での実験結果 • サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較 場合の数が増加しても改善 サンプリング 割合 ラベル Precision 差 Recall 差 F1-score 差 なし 1 0.41 0.00 0.01 0.2 1 0.89 +0.48 0.37 +0.37 0.53 +0.52 0.3 1 0.93 +0.52 0.23 +0.23 0.37 +0.36 0.4 1 0.90 +0.49 0.19 +0.19 0.31 +0.30 各種評価指標とその増減
  • 24. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 24 4⽅向 結果 4⽅向最⼤3台(16,777,216通り)の設定での実験結果 • サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較 サンプリング割合が増えるに従って改善 サンプリング 割合 ラベル Precision 差 Recall 差 F1-score 差 なし 1 0.28 0.01 0.02 0.2 1 0.18 -0.10 0.01 0.00 0.01 -0.01 0.3 1 0.69 +0.41 0.06 +0.05 0.11 +0.09 0.4 1 0.91 +0.63 0.45 +0.44 0.60 +0.58 各種評価指標とその増減
  • 25. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 25 場合の数の増加 学習の推移 学習の推移 • 縦軸: サンプリングした1万のエピソードの平均ステップ数 • 横軸: 強化学習のステップ数 強化学習なし: 全台が静的ルールに従った場合 最適⽅策: 全台が理想的な⽅策で⾏動した場合 強化学習なしの ライン 最適⽅策の ライン 3⽅向 4⽅向
  • 26. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 本研究の社会実装への問題点 • ⾞同⼠の通信 • ⾃動運転⾞両の普及 • 本研究のシミュレータで再現できていない部分 26 実社会への応⽤可能性 • : 既にITS Connectなど社会 実装が進んでおり実現可能 • : より現実に近い環境で学習・ 評価によって実現可能 FURUNO ⾞々間通信製品 https://www.furuno.com/jp/gnss/case/furuno04 社会実装へ向けての次のステップ: 現実に近い環境での検証が必要
  • 27. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 27 結論 • ⾃動運転を再現した優先度が変更可能なシミュレータ を開発 • 観測するエピソードが不均衡な場合に効果的な カウントベースアルゴリズムを提案 • タイミングチャートの譲り合い⾏動が,現実の交通の 特徴を捉えた表現であることを⽰した • 優先度変更⾏動を⾞々間通信することにより 交通容量の増加可能性を⽰した
  • 28. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 28 研究業績 国際学会(査読あり ⼝頭発表)(2件) • Tomoya Oda, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Wara- bino, Tomohiko Ogishi and Hideaki Tanaka, Deep Reinforcement Learning for Smooth Traffic Flow at An Intersection, 26th International Symposium on Artificial Life and Robotics (AROB 26th 2021), Online • Tomoya Oda, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Wara- bino, Tomohiko Ogishi and Hideaki Tanaka, Development of a Traffic-Simulation Environment Using RC Cars, Frontiers of Multi-Agent Systems (FMAS2020), Online 国内学会(査読なし ⼝頭発表)(1件) • 織⽥智⽮, 横⼭想⼀郎, ⼭下倫央, 川村秀憲, 蕨野貴之, ⼤岸智彦, ⽥中英明, RC カーを⽤いた⾃ 動運転⾞両シミュレーション環境の構築, 第20回複雑系マイクロシンポジウム, 06, オンライ ン (2021) 発表予定(1件) 国内学会(査読なし ⼝頭発表) • 織⽥智⽮, 横⼭想⼀郎, ⼭下倫央, 川村秀憲(北海道⼤学), 蕨野 貴之, ⼤岸智彦, ⽥中英明(KDDI 総合研究所), RCカーを⽤いた⾃動運転⾞両シミュレーション環境に関する研究,社会システ ムと情報技術研究ウィーク(WSSIT), 虻⽥郡留寿都村(2022) 受賞(1件) • 優秀プレゼンテーション賞(第20回複雑系マイクロシンポジウム)