深層強化学習による自動運転車両の追い越し行動の実現に関する研究

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
北海道大学工学部
情報エレクトロニクス学科情報理工学コース
複雑系工学講座調和系工学研究室
学部4年西佑希
動的パスプランニングによる自動運転車両の
追い越し行動の実現に関する研究
2021/02/03

• 日本の交通における問題
– 大都市では約40％の道路でピーク時に渋滞が発生[1]
– 渋滞による損失が年間約38.1億時間，貨幣価値換算で約12兆
円[2]
– 自動車から排出されるCO2は，渋滞で50％増加[3]
• 渋滞を解消し，車両全体の走行距離を増加させること
により，経済損失や公害問題を軽減することが必要
研究背景 2
[1] 国土交通省道路局, https://www.mlit.go.jp/road/ir/ir-data/data_shu.html（参照：2020-08-29)
[2] 国土交通省, https://www.mlit.go.jp/road/ir/ir-perform/h18/07.pdf（参照：2020-08-29)
[3] 国土交通省, https://www.mlit.go.jp/road/ir/ir-council/highway/4pdf/22.pdf（参照：2020-08-29)

渋滞の発生する状況
• 交差点の右折
– 信号を制御する方法がある[4]
• 合流
– ファスナー合流という合流方法で，ある程度渋滞を緩和でき
る[5]
• 追い越し
– 渋滞を発生を抑制したり，緩和するための方法が確立してい
ない
研究背景 3
[4] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018).
[5] Nishi, R., Miki, H., Tomoeda, A. and Nishinari, K.: Achievement of alter-native configurations of vehicles on multiple lanes,Phys. Rev. E, Vol.79, p.066119 (2009).
追い越し場面に着目
1
2
3
5
4

研究目的 4
• 右折車を譲って走行距離を増加させるような状況と基
礎的なところは似た問題
• 追い越しできるかどうかには対向車の意思決定が関係
してくる
• 研究目的
– 対向車を学習対象として深層強化学習を用いて，追い越し場
面での走行距離増加のための行動を獲得
– 複雑なシチュエーションがある中で，今回はシンプルに直線
道路で動かない障害物の追い越しを扱う
深層強化学習
障害物
追い越し車
対向車
止まる？
進む？

• 走行距離を増加させる研究は様々ある
– 深層強化学習により信号を制御する手法[6]
– 先頭車両との車間距離を自動調節する手法[7]
– 車をセルオートマトンとして渋滞を解析する研究[8]
• 走行距離を増加させるための追い越し行動に着目した
研究はない
• 追い越し場面に着目し，強化学習を用いて，対向車が
追い越し車を譲る行動することで走行距離を増加させ
る
従来研究 5
[6] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018).
[7] Van Arem, Bart, Cornelie JG Van Driel, and Ruben Visser. "The impact of cooperative adaptive cruise control on traffic-flow
characteristics.“ IEEE Transactions on intelligent transportation systems 7.4 (2006): 429-436.
[8]柳澤大地，西成活裕：渋滞学のセルオートマトンモデル，応用数理，Vol.22,No.1, pp.2-14 (2012)

状況的には
– 動かない障害物があるのか，低速走行車がいるのか
– 障害物の位置，低速走行車の位置，速度
– 対向車の台数，位置，速度
– 追い越し車の台数，位置，速度
など考慮すべきことが多いので，ルールベースではなく強化学習で
追い越し場面での行動の獲得を目指す
一般的に学習が早い価値ベースの深層強化学習手法DQNを使用
– Prioritized experience replay[9], Double DQN[10], Dueling
Network[11]などの工夫も入れる
強化学習 6
[9] Schaul, T., Quan, J., Antonoglou, I. and Silver, D.: Prioritized ExperienceReplay,CoRR, Vol.abs/1511.05952 (2016).
[10] van Hasselt, H., Guez, A. and Silver, D.: Deep Reinforcement Learningwith Double Q-Learning,Proceedings of the AAAI Conference on ArtificialIntelligence, Vol.30, No.1 (2016).
[11] Wang, Z., Schaul, T., Hessel, M., Hasselt, H., Lanctot, M. and Freitas, N.:Dueling Network Architectures for Deep Reinforcement Learning,Proceed-ings of The 33rd International
Conference on Machine Learning(Balcan,M.F. and Weinberger, K.Q., eds.), Proceedings of Machine Learning Re-search, Vol.48, New York, New York, USA, PMLR, pp.1995–2003 (2016).

シミュレーション環境 7
• ソフトウェアシミュレーション
– コストが低くスケーリングにロバストだが，実際の環境から
離れたものになる
– 実時間制約なし
• RCカーシミュレーション
– 比較的，実際の環境に近い形で実験が行える
– 実時間制約あり
• 実車両シミュレーション
– 実際の環境に近いがコストが非常に高い
ソフトウェアシミュレーションで強化学習をして行動獲得
RCカーシミュレーションで評価・検証
本研究

シミュレーション環境 8
• ソフトウェアシミュレーションには２つ種類がある
– 決まったレーン上を走行するレーン走行型シミュレータ
– 車両が自由に動ける2次元平面型シミュレータ
→追い越し実装に適しているのは2次元平面型シミュレータ
• 我々の開発した2次元平面型シミュレータ「Harmo
Traffic Simulator」を使用
– RCカーシミュレーション環境を模したシミュレータ
• Harmo Traffic Simulatorを使用するメリット
– 追い越しや強化学習のモデルを導入しやすい
– ステアリング角度を決定でき、決まったレーン上を走行する
だけのシミュレータにはできない追い越しを実装できる

強化学習環境作成のための実装 9
• 追い越し行動の実装
– Harmo Traffic Simulatorには追い越しの実装がない
– 障害物に衝突せず、追い越しできるように実装
• 強化学習の実装
– Harmo Traffic Simulatorを環境，対向車1台をエージェントと
して学習
– 追い越し車と対向車が障害物付近で対向し、追い越し時に車
両同士のインタラクションが必要な状況が生まれる状況の作
成

して学習
成

• 経路生成
– Harmo Traffic Simulatorは目標パスをダイクストラ法で生成
– 障害物回避をしながら，その目標パスに近いところを走行で
きる動的経路生成アルゴリズムFrenet Optimal Trajectoryを使
用
• 経路追従
– アクセル制御：P制御
– ステアリング制御：Pure Pursuit
経路生成と経路追従アルゴリズム 11
障害物回避のための動的経路生成アルゴリズムFrenet Optimal Trajectory[11]
を使用し，生成された経路を追従することで追い越しを実現
[11] Moritz Werling, Julius Ziegler, S¨oren Kammel, and Sebastian Thrun. Optimal Trajectory Generation
for Dynamic Street Scenarios in a Frenet Frame. IEEE, 2010.
複数の経路を生成
障害物に当たらない＆
コスト最小選択

して学習
成

強化学習環境（Harmo Traffic Simulator） 13
対向車
追い越し車
学習対象
障害物

追い越し発生
ポイント

• 1エピソードは強化学習車が規定の
場所から1周
• エピソード毎に追い越し車，対向
車それぞれが8か所の開始地点から
6台を上限としてランダムな台数，
開始地点で車両を配置
強化学習対象車 Harmo Traffic Simulator
行動
状態，報酬
（エージェント）（環境）

• 対向車を強化学習対象として，Prioritized Double Dueling Deep
Q-Networkを適用
• 観測は正規化
深層強化学習の設定 16
値行動空間
0 交通ルールでの走行
1 追い越し車を譲るために停止
観測
追い越し車の台数
対向車の台数
強化学習対象車の速度
先頭追い越し車の速度
強化学習対象車と障害物との距離
強化学習対象車と先頭追い越し車との距離障害物
追い越し車
学習対象車
目標パス周辺で
追い越し車検知
進む？
止まる？

• ニューラルネットワークの構造
– 入力層 6次元
– 隠れ層1 256次元
– 隠れ層2 128次元
– 活性化関数 Relu
– 出力層2次元
深層強化学習の設定 17
報酬
全車両の走行距離の平均
t t+1 t+2 ・・・
学習ステップ
最終学習
ステップ
最終学習
ステップ
+100
障害物をよけた後，
学習はしないで走行
最終学習ステップから
100ステップ走行し，
割引報酬和を最終
ステップの報酬とする

【実験目的】
– 深層強化学習によって得た行動によって，追い越し場面にお
いて車両全体の走行距離が増加することを検証
【実験方法】
– 交通ルールでの走行と深層強化学習後の走行で，それぞれ全
車両の走行距離を測定し比較
• 3000ステップ分（1ステップ0.1秒，車両速度1m/s）の全車両の走
行距離の平均
– 学習時に報酬が最大となるモデルを使用したいが，今回の設
定では難しいので50000ステップと100000ステップで比較
– 追い越し車と対向車の台数は2-2, 2-4, 2-6, 4-2, 4-4, 4-6, 6-2,
6-4, 6-6で実験
実験 18

• ほとんどの台数設定で走行距離
増加
• 対向車が少ないとき（2-2, 4-2,
6-2）の走行は，交通ルール走行
と似た走行で走行距離はほぼ変
化しない
実験結果 19
-2.75-2.26
13.05
0
3.55
7.16
0.8
6.15 6.41
-20
-15
-10
-5
0
5
10
15
2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6
走行距離の増加率
追い越し車両台数-対向車両台数
50000ステップ
-5.87
-3.82
11.23
-7.08
1.82
-15.8
-8.09
-3.93-3.12
-20
-15
-10
-5
0
5
10
15
2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6
走行距離の増加率
追い越し車両台数-対向車両台数
100000ステップ
交通ルールと学習後とで走行距離の増加率
• 意味のない譲りが見られ，交通
ルール走行と比較して走行距離は
低下した
走行距離の増加率＝学習後の走行距離 / 交通ルールでの走行距離

走行の比較 20
交通ルールでの走行強化学習後の走行

走行の比較 21
交通ルールでの走行強化学習後の走行
円滑な追い越しにより，走行距離が大きくなった例
交通ルール：235.3m
強化学習後：254.7m

強化学習後の走行（50000ステップ） 22
• 学習しても交通ルール走行とほぼ
走行距離が変わらなかった例
– 6－2での走行
• 追い越し車を譲る行動は見られる
3000ステップでの全車両の走行距離の平
均

強化学習後の走行（100000ステップ） 23
• 学習しても交通ルール走行よりも
走行距離が低下した例
– 6－2での走行
• 追い越し車が通り過ぎたあとに譲
る行動をとり続けている
– 学習がうまくいっていない
3000ステップでの全車両の走行距離
の平均

• 報酬の割引率により，ステップ数を増やした方が割引
報酬の総和が大きくなって意味のない譲りが見られた
• 100000ステップの方が1エピソードのステップ数を増
やすように（意味のない譲りをするように）学習が進
み，走行距離が小さくなった
• 車両の台数が少ないとき（2-2, 2-4, 4-2）は対向車と
追い越し車が対面する状況が少なく，学習がうまく
いっていなかった可能性がある
考察 24

• 50000ステップ学習した時は，走行距離を増加する譲
り行動を獲得
– 直線道路，動かない障害物がある状況で，スムーズな交通に
より流量増加につながる
• 100000ステップ学習した時は，交通ルール走行と比
較して走行距離が低下した
実験のまとめ 25

まとめ 26
深層強化学習によって，障害物の追い越し場面で車
両全体の走行距離を増加するための行動を獲得
障害物ではなく低速走行車の追い越しなどほかのシ
チュエーションも検証
RCカーシミュレータに学習モデルを適用し，検
証・評価

深層強化学習による自動運転車両の追い越し行動の実現に関する研究

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 深層強化学習による自動運転車両の追い越し行動の実現に関する研究

Semelhante a 深層強化学習による自動運転車両の追い越し行動の実現に関する研究 (20)

Mais de harmonylab

Mais de harmonylab (20)

Último

Último (10)

深層強化学習による自動運転車両の追い越し行動の実現に関する研究