SlideShare uma empresa Scribd logo
1 de 26
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
北海道大学 工学部
情報エレクトロニクス学科 情報理工学コース
複雑系工学講座 調和系工学研究室
学部4年 西 佑希
動的パスプランニングによる自動運転車両の
追い越し行動の実現に関する研究
2021/02/03
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 日本の交通における問題
– 大都市では約40%の道路でピーク時に渋滞が発生[1]
– 渋滞による損失が年間約38.1億時間,貨幣価値換算で約12兆
円[2]
– 自動車から排出されるCO2は,渋滞で50%増加[3]
• 渋滞を解消し,車両全体の走行距離を増加させること
により,経済損失や公害問題を軽減することが必要
研究背景 2
[1] 国土交通省道路局, https://www.mlit.go.jp/road/ir/ir-data/data_shu.html(参照:2020-08-29)
[2] 国土交通省, https://www.mlit.go.jp/road/ir/ir-perform/h18/07.pdf(参照:2020-08-29)
[3] 国土交通省, https://www.mlit.go.jp/road/ir/ir-council/highway/4pdf/22.pdf(参照:2020-08-29)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
渋滞の発生する状況
• 交差点の右折
– 信号を制御する方法がある[4]
• 合流
– ファスナー合流という合流方法で,ある程度渋滞を緩和でき
る[5]
• 追い越し
– 渋滞を発生を抑制したり,緩和するための方法が確立してい
ない
研究背景 3
[4] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018).
[5] Nishi, R., Miki, H., Tomoeda, A. and Nishinari, K.: Achievement of alter-native configurations of vehicles on multiple lanes,Phys. Rev. E, Vol.79, p.066119 (2009).
追い越し場面に着目
1
2
3
5
4
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
研究目的 4
• 右折車を譲って走行距離を増加させるような状況と基
礎的なところは似た問題
• 追い越しできるかどうかには対向車の意思決定が関係
してくる
• 研究目的
– 対向車を学習対象として深層強化学習を用いて,追い越し場
面での走行距離増加のための行動を獲得
– 複雑なシチュエーションがある中で,今回はシンプルに直線
道路で動かない障害物の追い越しを扱う
深層強化学習
障害物
追い越し車
対向車
止まる?
進む?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 走行距離を増加させる研究は様々ある
– 深層強化学習により信号を制御する手法[6]
– 先頭車両との車間距離を自動調節する手法[7]
– 車をセルオートマトンとして渋滞を解析する研究[8]
• 走行距離を増加させるための追い越し行動に着目した
研究はない
• 追い越し場面に着目し,強化学習を用いて,対向車が
追い越し車を譲る行動することで走行距離を増加させ
る
従来研究 5
[6] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018).
[7] Van Arem, Bart, Cornelie JG Van Driel, and Ruben Visser. "The impact of cooperative adaptive cruise control on traffic-flow
characteristics.“ IEEE Transactions on intelligent transportation systems 7.4 (2006): 429-436.
[8]柳澤大地,西成活裕:渋滞学のセルオートマトンモデル,応用数理,Vol.22,No.1, pp.2-14 (2012)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
状況的には
– 動かない障害物があるのか,低速走行車がいるのか
– 障害物の位置,低速走行車の位置,速度
– 対向車の台数,位置,速度
– 追い越し車の台数,位置,速度
など考慮すべきことが多いので,ルールベースではなく強化学習で
追い越し場面での行動の獲得を目指す
一般的に学習が早い価値ベースの深層強化学習手法DQNを使用
– Prioritized experience replay[9], Double DQN[10], Dueling
Network[11]などの工夫も入れる
強化学習 6
[9] Schaul, T., Quan, J., Antonoglou, I. and Silver, D.: Prioritized ExperienceReplay,CoRR, Vol.abs/1511.05952 (2016).
[10] van Hasselt, H., Guez, A. and Silver, D.: Deep Reinforcement Learningwith Double Q-Learning,Proceedings of the AAAI Conference on ArtificialIntelligence, Vol.30, No.1 (2016).
[11] Wang, Z., Schaul, T., Hessel, M., Hasselt, H., Lanctot, M. and Freitas, N.:Dueling Network Architectures for Deep Reinforcement Learning,Proceed-ings of The 33rd International
Conference on Machine Learning(Balcan,M.F. and Weinberger, K.Q., eds.), Proceedings of Machine Learning Re-search, Vol.48, New York, New York, USA, PMLR, pp.1995–2003 (2016).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
シミュレーション環境 7
• ソフトウェアシミュレーション
– コストが低くスケーリングにロバストだが,実際の環境から
離れたものになる
– 実時間制約なし
• RCカーシミュレーション
– 比較的,実際の環境に近い形で実験が行える
– 実時間制約あり
• 実車両シミュレーション
– 実際の環境に近いがコストが非常に高い
ソフトウェアシミュレーションで強化学習をして行動獲得
RCカーシミュレーションで評価・検証
本研究
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
シミュレーション環境 8
• ソフトウェアシミュレーションには2つ種類がある
– 決まったレーン上を走行するレーン走行型シミュレータ
– 車両が自由に動ける2次元平面型シミュレータ
→追い越し実装に適しているのは2次元平面型シミュレータ
• 我々の開発した2次元平面型シミュレータ「Harmo
Traffic Simulator」を使用
– RCカーシミュレーション環境を模したシミュレータ
• Harmo Traffic Simulatorを使用するメリット
– 追い越しや強化学習のモデルを導入しやすい
– ステアリング角度を決定でき、決まったレーン上を走行する
だけのシミュレータにはできない追い越しを実装できる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境作成のための実装 9
• 追い越し行動の実装
– Harmo Traffic Simulatorには追い越しの実装がない
– 障害物に衝突せず、追い越しできるように実装
• 強化学習の実装
– Harmo Traffic Simulatorを環境,対向車1台をエージェントと
して学習
– 追い越し車と対向車が障害物付近で対向し、追い越し時に車
両同士のインタラクションが必要な状況が生まれる状況の作
成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境作成のための実装 10
• 追い越し行動の実装
– Harmo Traffic Simulatorには追い越しの実装がない
– 障害物に衝突せず、追い越しできるように実装
• 強化学習の実装
– Harmo Traffic Simulatorを環境,対向車1台をエージェントと
して学習
– 追い越し車と対向車が障害物付近で対向し、追い越し時に車
両同士のインタラクションが必要な状況が生まれる状況の作
成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 経路生成
– Harmo Traffic Simulatorは目標パスをダイクストラ法で生成
– 障害物回避をしながら,その目標パスに近いところを走行で
きる動的経路生成アルゴリズムFrenet Optimal Trajectoryを使
用
• 経路追従
– アクセル制御:P制御
– ステアリング制御:Pure Pursuit
経路生成と経路追従アルゴリズム 11
障害物回避のための動的経路生成アルゴリズムFrenet Optimal Trajectory[11]
を使用し,生成された経路を追従することで追い越しを実現
[11] Moritz Werling, Julius Ziegler, S¨oren Kammel, and Sebastian Thrun. Optimal Trajectory Generation
for Dynamic Street Scenarios in a Frenet Frame. IEEE, 2010.
複数の経路を生成
障害物に当たらない&
コスト最小選択
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境作成のための実装 12
• 追い越し行動の実装
– Harmo Traffic Simulatorには追い越しの実装がない
– 障害物に衝突せず、追い越しできるように実装
• 強化学習の実装
– Harmo Traffic Simulatorを環境,対向車1台をエージェントと
して学習
– 追い越し車と対向車が障害物付近で対向し、追い越し時に車
両同士のインタラクションが必要な状況が生まれる状況の作
成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境(Harmo Traffic Simulator) 13
対向車
追い越し車
学習対象
障害物
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習環境(Harmo Traffic Simulator) 14
追い越し発生
ポイント
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 1エピソードは強化学習車が規定の
場所から1周
• エピソード毎に追い越し車,対向
車それぞれが8か所の開始地点から
6台を上限としてランダムな台数,
開始地点で車両を配置
強化学習環境(Harmo Traffic Simulator) 15
強化学習対象車 Harmo Traffic Simulator
行動
状態,報酬
(エージェント) (環境)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 対向車を強化学習対象として,Prioritized Double Dueling Deep
Q-Networkを適用
• 観測は正規化
深層強化学習の設定 16
値 行動空間
0 交通ルールでの走行
1 追い越し車を譲るために停止
観測
追い越し車の台数
対向車の台数
強化学習対象車の速度
先頭追い越し車の速度
強化学習対象車と障害物との距離
強化学習対象車と先頭追い越し車との距離 障害物
追い越し車
学習対象車
目標パス周辺で
追い越し車検知
進む?
止まる?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• ニューラルネットワークの構造
– 入力層 6次元
– 隠れ層1 256次元
– 隠れ層2 128次元
– 活性化関数 Relu
– 出力層2次元
深層強化学習の設定 17
報酬
全車両の走行距離の平均
t t+1 t+2 ・・・
学習ステップ
最終学習
ステップ
最終学習
ステップ
+100
障害物をよけた後,
学習はしないで走行
最終学習ステップから
100ステップ走行し,
割引報酬和を最終
ステップの報酬とする
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
【実験目的】
– 深層強化学習によって得た行動によって,追い越し場面にお
いて車両全体の走行距離が増加することを検証
【実験方法】
– 交通ルールでの走行と深層強化学習後の走行で,それぞれ全
車両の走行距離を測定し比較
• 3000ステップ分(1ステップ0.1秒,車両速度1m/s)の全車両の走
行距離の平均
– 学習時に報酬が最大となるモデルを使用したいが,今回の設
定では難しいので50000ステップと100000ステップで比較
– 追い越し車と対向車の台数は2-2, 2-4, 2-6, 4-2, 4-4, 4-6, 6-2,
6-4, 6-6で実験
実験 18
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• ほとんどの台数設定で走行距離
増加
• 対向車が少ないとき(2-2, 4-2,
6-2)の走行は,交通ルール走行
と似た走行で走行距離はほぼ変
化しない
実験結果 19
-2.75-2.26
13.05
0
3.55
7.16
0.8
6.15 6.41
-20
-15
-10
-5
0
5
10
15
2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6
走行距離の増加率
追い越し車両台数-対向車両台数
50000ステップ
-5.87
-3.82
11.23
-7.08
1.82
-15.8
-8.09
-3.93-3.12
-20
-15
-10
-5
0
5
10
15
2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6
走行距離の増加率
追い越し車両台数-対向車両台数
100000ステップ
交通ルールと学習後とで走行距離の増加率
• 意味のない譲りが見られ,交通
ルール走行と比較して走行距離は
低下した
走行距離の増加率=学習後の走行距離 / 交通ルールでの走行距離
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
走行の比較 20
交通ルールでの走行 強化学習後の走行
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
走行の比較 21
交通ルールでの走行 強化学習後の走行
円滑な追い越しにより,走行距離が大きくなった例
交通ルール:235.3m
強化学習後:254.7m
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習後の走行(50000ステップ) 22
• 学習しても交通ルール走行とほぼ
走行距離が変わらなかった例
– 6-2での走行
• 追い越し車を譲る行動は見られる
3000ステップでの全車両の走行距離の平
均
交通ルール:247.7m
強化学習後:250.7m
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
強化学習後の走行(100000ステップ) 23
• 学習しても交通ルール走行よりも
走行距離が低下した例
– 6-2での走行
• 追い越し車が通り過ぎたあとに譲
る行動をとり続けている
– 学習がうまくいっていない
3000ステップでの全車両の走行距離
の平均
交通ルール:247.7m
強化学習後:228.5m
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 報酬の割引率により,ステップ数を増やした方が割引
報酬の総和が大きくなって意味のない譲りが見られた
• 100000ステップの方が1エピソードのステップ数を増
やすように(意味のない譲りをするように)学習が進
み,走行距離が小さくなった
• 車両の台数が少ないとき(2-2, 2-4, 4-2)は対向車と
追い越し車が対面する状況が少なく,学習がうまく
いっていなかった可能性がある
考察 24
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 50000ステップ学習した時は,走行距離を増加する譲
り行動を獲得
– 直線道路,動かない障害物がある状況で,スムーズな交通に
より流量増加につながる
• 100000ステップ学習した時は,交通ルール走行と比
較して走行距離が低下した
実験のまとめ 25
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ 26
深層強化学習によって,障害物の追い越し場面で車
両全体の走行距離を増加するための行動を獲得
障害物ではなく低速走行車の追い越しなどほかのシ
チュエーションも検証
RCカーシミュレータに学習モデルを適用し,検
証・評価

Mais conteúdo relacionado

Mais procurados

歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究harmonylab
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方Satoshi Miura
 
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]DeNA
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性西岡 賢一郎
 
それでも私が研究を続ける理由
それでも私が研究を続ける理由それでも私が研究を続ける理由
それでも私が研究を続ける理由Hitomi Yanaka
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)Takanori Ogata
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 

Mais procurados (20)

歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方
 
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
 
それでも私が研究を続ける理由
それでも私が研究を続ける理由それでも私が研究を続ける理由
それでも私が研究を続ける理由
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)10分でわかる主成分分析(PCA)
10分でわかる主成分分析(PCA)
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
ISS2018 seminar
ISS2018 seminarISS2018 seminar
ISS2018 seminar
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 

Semelhante a 深層強化学習による自動運転車両の追い越し行動の実現に関する研究

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agentharmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Searchharmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...harmonylab
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究harmonylab
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Textharmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmeticharmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identificationharmonylab
 

Semelhante a 深層強化学習による自動運転車両の追い越し行動の実現に関する研究 (20)

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
修士論文
修士論文修士論文
修士論文
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
 
RAPiD
RAPiDRAPiD
RAPiD
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 

Mais de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...harmonylab
 

Mais de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 

Último

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 

Último (10)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

深層強化学習による自動運転車両の追い越し行動の実現に関する研究

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複雑系工学講座 調和系工学研究室 学部4年 西 佑希 動的パスプランニングによる自動運転車両の 追い越し行動の実現に関する研究 2021/02/03
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 日本の交通における問題 – 大都市では約40%の道路でピーク時に渋滞が発生[1] – 渋滞による損失が年間約38.1億時間,貨幣価値換算で約12兆 円[2] – 自動車から排出されるCO2は,渋滞で50%増加[3] • 渋滞を解消し,車両全体の走行距離を増加させること により,経済損失や公害問題を軽減することが必要 研究背景 2 [1] 国土交通省道路局, https://www.mlit.go.jp/road/ir/ir-data/data_shu.html(参照:2020-08-29) [2] 国土交通省, https://www.mlit.go.jp/road/ir/ir-perform/h18/07.pdf(参照:2020-08-29) [3] 国土交通省, https://www.mlit.go.jp/road/ir/ir-council/highway/4pdf/22.pdf(参照:2020-08-29)
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 渋滞の発生する状況 • 交差点の右折 – 信号を制御する方法がある[4] • 合流 – ファスナー合流という合流方法で,ある程度渋滞を緩和でき る[5] • 追い越し – 渋滞を発生を抑制したり,緩和するための方法が確立してい ない 研究背景 3 [4] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018). [5] Nishi, R., Miki, H., Tomoeda, A. and Nishinari, K.: Achievement of alter-native configurations of vehicles on multiple lanes,Phys. Rev. E, Vol.79, p.066119 (2009). 追い越し場面に着目 1 2 3 5 4
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 研究目的 4 • 右折車を譲って走行距離を増加させるような状況と基 礎的なところは似た問題 • 追い越しできるかどうかには対向車の意思決定が関係 してくる • 研究目的 – 対向車を学習対象として深層強化学習を用いて,追い越し場 面での走行距離増加のための行動を獲得 – 複雑なシチュエーションがある中で,今回はシンプルに直線 道路で動かない障害物の追い越しを扱う 深層強化学習 障害物 追い越し車 対向車 止まる? 進む?
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 走行距離を増加させる研究は様々ある – 深層強化学習により信号を制御する手法[6] – 先頭車両との車間距離を自動調節する手法[7] – 車をセルオートマトンとして渋滞を解析する研究[8] • 走行距離を増加させるための追い越し行動に着目した 研究はない • 追い越し場面に着目し,強化学習を用いて,対向車が 追い越し車を譲る行動することで走行距離を増加させ る 従来研究 5 [6] Liang, X., Du, X., Wang, G. and Han, Z.: Deep Reinforcement Learning for Traffic Light Control in Vehicular Networks (2018). [7] Van Arem, Bart, Cornelie JG Van Driel, and Ruben Visser. "The impact of cooperative adaptive cruise control on traffic-flow characteristics.“ IEEE Transactions on intelligent transportation systems 7.4 (2006): 429-436. [8]柳澤大地,西成活裕:渋滞学のセルオートマトンモデル,応用数理,Vol.22,No.1, pp.2-14 (2012)
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 状況的には – 動かない障害物があるのか,低速走行車がいるのか – 障害物の位置,低速走行車の位置,速度 – 対向車の台数,位置,速度 – 追い越し車の台数,位置,速度 など考慮すべきことが多いので,ルールベースではなく強化学習で 追い越し場面での行動の獲得を目指す 一般的に学習が早い価値ベースの深層強化学習手法DQNを使用 – Prioritized experience replay[9], Double DQN[10], Dueling Network[11]などの工夫も入れる 強化学習 6 [9] Schaul, T., Quan, J., Antonoglou, I. and Silver, D.: Prioritized ExperienceReplay,CoRR, Vol.abs/1511.05952 (2016). [10] van Hasselt, H., Guez, A. and Silver, D.: Deep Reinforcement Learningwith Double Q-Learning,Proceedings of the AAAI Conference on ArtificialIntelligence, Vol.30, No.1 (2016). [11] Wang, Z., Schaul, T., Hessel, M., Hasselt, H., Lanctot, M. and Freitas, N.:Dueling Network Architectures for Deep Reinforcement Learning,Proceed-ings of The 33rd International Conference on Machine Learning(Balcan,M.F. and Weinberger, K.Q., eds.), Proceedings of Machine Learning Re-search, Vol.48, New York, New York, USA, PMLR, pp.1995–2003 (2016).
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. シミュレーション環境 7 • ソフトウェアシミュレーション – コストが低くスケーリングにロバストだが,実際の環境から 離れたものになる – 実時間制約なし • RCカーシミュレーション – 比較的,実際の環境に近い形で実験が行える – 実時間制約あり • 実車両シミュレーション – 実際の環境に近いがコストが非常に高い ソフトウェアシミュレーションで強化学習をして行動獲得 RCカーシミュレーションで評価・検証 本研究
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. シミュレーション環境 8 • ソフトウェアシミュレーションには2つ種類がある – 決まったレーン上を走行するレーン走行型シミュレータ – 車両が自由に動ける2次元平面型シミュレータ →追い越し実装に適しているのは2次元平面型シミュレータ • 我々の開発した2次元平面型シミュレータ「Harmo Traffic Simulator」を使用 – RCカーシミュレーション環境を模したシミュレータ • Harmo Traffic Simulatorを使用するメリット – 追い越しや強化学習のモデルを導入しやすい – ステアリング角度を決定でき、決まったレーン上を走行する だけのシミュレータにはできない追い越しを実装できる
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境作成のための実装 9 • 追い越し行動の実装 – Harmo Traffic Simulatorには追い越しの実装がない – 障害物に衝突せず、追い越しできるように実装 • 強化学習の実装 – Harmo Traffic Simulatorを環境,対向車1台をエージェントと して学習 – 追い越し車と対向車が障害物付近で対向し、追い越し時に車 両同士のインタラクションが必要な状況が生まれる状況の作 成
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境作成のための実装 10 • 追い越し行動の実装 – Harmo Traffic Simulatorには追い越しの実装がない – 障害物に衝突せず、追い越しできるように実装 • 強化学習の実装 – Harmo Traffic Simulatorを環境,対向車1台をエージェントと して学習 – 追い越し車と対向車が障害物付近で対向し、追い越し時に車 両同士のインタラクションが必要な状況が生まれる状況の作 成
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 経路生成 – Harmo Traffic Simulatorは目標パスをダイクストラ法で生成 – 障害物回避をしながら,その目標パスに近いところを走行で きる動的経路生成アルゴリズムFrenet Optimal Trajectoryを使 用 • 経路追従 – アクセル制御:P制御 – ステアリング制御:Pure Pursuit 経路生成と経路追従アルゴリズム 11 障害物回避のための動的経路生成アルゴリズムFrenet Optimal Trajectory[11] を使用し,生成された経路を追従することで追い越しを実現 [11] Moritz Werling, Julius Ziegler, S¨oren Kammel, and Sebastian Thrun. Optimal Trajectory Generation for Dynamic Street Scenarios in a Frenet Frame. IEEE, 2010. 複数の経路を生成 障害物に当たらない& コスト最小選択
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境作成のための実装 12 • 追い越し行動の実装 – Harmo Traffic Simulatorには追い越しの実装がない – 障害物に衝突せず、追い越しできるように実装 • 強化学習の実装 – Harmo Traffic Simulatorを環境,対向車1台をエージェントと して学習 – 追い越し車と対向車が障害物付近で対向し、追い越し時に車 両同士のインタラクションが必要な状況が生まれる状況の作 成
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境(Harmo Traffic Simulator) 13 対向車 追い越し車 学習対象 障害物
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習環境(Harmo Traffic Simulator) 14 追い越し発生 ポイント
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 1エピソードは強化学習車が規定の 場所から1周 • エピソード毎に追い越し車,対向 車それぞれが8か所の開始地点から 6台を上限としてランダムな台数, 開始地点で車両を配置 強化学習環境(Harmo Traffic Simulator) 15 強化学習対象車 Harmo Traffic Simulator 行動 状態,報酬 (エージェント) (環境)
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 対向車を強化学習対象として,Prioritized Double Dueling Deep Q-Networkを適用 • 観測は正規化 深層強化学習の設定 16 値 行動空間 0 交通ルールでの走行 1 追い越し車を譲るために停止 観測 追い越し車の台数 対向車の台数 強化学習対象車の速度 先頭追い越し車の速度 強化学習対象車と障害物との距離 強化学習対象車と先頭追い越し車との距離 障害物 追い越し車 学習対象車 目標パス周辺で 追い越し車検知 進む? 止まる?
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ニューラルネットワークの構造 – 入力層 6次元 – 隠れ層1 256次元 – 隠れ層2 128次元 – 活性化関数 Relu – 出力層2次元 深層強化学習の設定 17 報酬 全車両の走行距離の平均 t t+1 t+2 ・・・ 学習ステップ 最終学習 ステップ 最終学習 ステップ +100 障害物をよけた後, 学習はしないで走行 最終学習ステップから 100ステップ走行し, 割引報酬和を最終 ステップの報酬とする
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 【実験目的】 – 深層強化学習によって得た行動によって,追い越し場面にお いて車両全体の走行距離が増加することを検証 【実験方法】 – 交通ルールでの走行と深層強化学習後の走行で,それぞれ全 車両の走行距離を測定し比較 • 3000ステップ分(1ステップ0.1秒,車両速度1m/s)の全車両の走 行距離の平均 – 学習時に報酬が最大となるモデルを使用したいが,今回の設 定では難しいので50000ステップと100000ステップで比較 – 追い越し車と対向車の台数は2-2, 2-4, 2-6, 4-2, 4-4, 4-6, 6-2, 6-4, 6-6で実験 実験 18
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ほとんどの台数設定で走行距離 増加 • 対向車が少ないとき(2-2, 4-2, 6-2)の走行は,交通ルール走行 と似た走行で走行距離はほぼ変 化しない 実験結果 19 -2.75-2.26 13.05 0 3.55 7.16 0.8 6.15 6.41 -20 -15 -10 -5 0 5 10 15 2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6 走行距離の増加率 追い越し車両台数-対向車両台数 50000ステップ -5.87 -3.82 11.23 -7.08 1.82 -15.8 -8.09 -3.93-3.12 -20 -15 -10 -5 0 5 10 15 2-2 2-4 2-6 4-2 4-4 4-6 6-2 6-4 6-6 走行距離の増加率 追い越し車両台数-対向車両台数 100000ステップ 交通ルールと学習後とで走行距離の増加率 • 意味のない譲りが見られ,交通 ルール走行と比較して走行距離は 低下した 走行距離の増加率=学習後の走行距離 / 交通ルールでの走行距離
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 走行の比較 20 交通ルールでの走行 強化学習後の走行
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 走行の比較 21 交通ルールでの走行 強化学習後の走行 円滑な追い越しにより,走行距離が大きくなった例 交通ルール:235.3m 強化学習後:254.7m
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習後の走行(50000ステップ) 22 • 学習しても交通ルール走行とほぼ 走行距離が変わらなかった例 – 6-2での走行 • 追い越し車を譲る行動は見られる 3000ステップでの全車両の走行距離の平 均 交通ルール:247.7m 強化学習後:250.7m
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 強化学習後の走行(100000ステップ) 23 • 学習しても交通ルール走行よりも 走行距離が低下した例 – 6-2での走行 • 追い越し車が通り過ぎたあとに譲 る行動をとり続けている – 学習がうまくいっていない 3000ステップでの全車両の走行距離 の平均 交通ルール:247.7m 強化学習後:228.5m
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 報酬の割引率により,ステップ数を増やした方が割引 報酬の総和が大きくなって意味のない譲りが見られた • 100000ステップの方が1エピソードのステップ数を増 やすように(意味のない譲りをするように)学習が進 み,走行距離が小さくなった • 車両の台数が少ないとき(2-2, 2-4, 4-2)は対向車と 追い越し車が対面する状況が少なく,学習がうまく いっていなかった可能性がある 考察 24
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 50000ステップ学習した時は,走行距離を増加する譲 り行動を獲得 – 直線道路,動かない障害物がある状況で,スムーズな交通に より流量増加につながる • 100000ステップ学習した時は,交通ルール走行と比 較して走行距離が低下した 実験のまとめ 25
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 26 深層強化学習によって,障害物の追い越し場面で車 両全体の走行距離を増加するための行動を獲得 障害物ではなく低速走行車の追い越しなどほかのシ チュエーションも検証 RCカーシミュレータに学習モデルを適用し,検 証・評価