SlideShare a Scribd company logo
Enviar pesquisa
Carregar
Entrar
Cadastre-se
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
Denunciar
Deep Learning JP
Seguir
Deep Learning JP
5 de Jun de 2020
•
0 gostou
•
747 visualizações
1
de
18
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
5 de Jun de 2020
•
0 gostou
•
747 visualizações
Baixar agora
Baixar para ler offline
Denunciar
Tecnologia
2020/06/05 Deep Learning JP: http://deeplearning.jp/seminar-2/
Deep Learning JP
Seguir
Deep Learning JP
Recomendados
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
DeNA
2.7K visualizações
•
25 slides
「実ロボットの運動生成」
Yurika Doi
15.2K visualizações
•
89 slides
SIGSPATIAL 2020 参加報告資料
Tomoki Saito
2.1K visualizações
•
49 slides
ディープラーニングの産業応用とそれを支える技術
Shohei Hido
8.1K visualizações
•
41 slides
Deep Learningを用いたロボット制御
Ryosuke Okuta
15.1K visualizações
•
36 slides
実社会・実環境におけるロボットの機械学習 ver. 2
Kuniyuki Takahashi
8.6K visualizações
•
36 slides
Mais conteúdo relacionado
Mais procurados
2022/02 情報基盤システム学(NAIST)の研究室紹介
inet-lab
2K visualizações
•
36 slides
なぜRustか?
emakryo
2.2K visualizações
•
38 slides
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
Preferred Networks
1.2K visualizações
•
70 slides
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
2.3K visualizações
•
22 slides
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Hironobu Fujiyoshi
2.9K visualizações
•
31 slides
[Track3-4] アカデミックにおけるAI/ディープラーニング の教育と学習支援に関する研究
Deep Learning Lab(ディープラーニング・ラボ)
1.7K visualizações
•
17 slides
Mais procurados
(18)
2022/02 情報基盤システム学(NAIST)の研究室紹介
inet-lab
•
2K visualizações
なぜRustか?
emakryo
•
2.2K visualizações
東大大学院 戦略ソフトウェア特論2021「ロボットで世界を計算可能にする」海野裕也
Preferred Networks
•
1.2K visualizações
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
•
2.3K visualizações
Inside-Outカメラからの3次元Scan Pathとシーン構造の復元
Hironobu Fujiyoshi
•
2.9K visualizações
[Track3-4] アカデミックにおけるAI/ディープラーニング の教育と学習支援に関する研究
Deep Learning Lab(ディープラーニング・ラボ)
•
1.7K visualizações
機械学習応用アーキテクチャ・デザインパターン概観
Hironori Washizaki
•
2K visualizações
[Track2-1] ディープラーニングのロボット応用事例 ーデータからエクスペリエンスへー
Deep Learning Lab(ディープラーニング・ラボ)
•
2.9K visualizações
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII
•
4.8K visualizações
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
•
6.8K visualizações
CTF, What's in it for me?
Hiromu Yakura
•
18K visualizações
機械学習応用システムの開発技術(機械学習工学)の現状と今後の展望
Nobukazu Yoshioka
•
138 visualizações
スマートエスイーセミナー:機外学習応用システムパターンの例
HironoriTAKEUCHI1
•
1.6K visualizações
【A02】ドローンを使ったプログラミング教育【青森大学/ソフトウェア情報学部 橋本研究室】
aomorisix
•
62 visualizações
Arrow Judge
Hiromu Yakura
•
20.4K visualizações
Playgram開発秘話_2022年1月プログラミングシンポジウム招待講演_西澤勇輝、岡本雄太
Preferred Networks
•
967 visualizações
実世界の人工知能@DeNA TechCon 2017
Preferred Networks
•
21.1K visualizações
DeNAにおける先端AI技術活用のチャレンジ
Yusuke Uchida
•
5K visualizações
Similar a [DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
891 visualizações
•
78 slides
ドライブレコーダの動画を使った道路情報の自動差分抽出
Tetsutaro Watanabe
5.2K visualizações
•
35 slides
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
3.4K visualizações
•
28 slides
「Google I/O 2018ふりかえり」What's new ARCore and ML Kit (Google APP DOJO資料)
嶋 是一 (Yoshikazu SHIMA)
590 visualizações
•
57 slides
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
Toshiki Sakai
1.5K visualizações
•
29 slides
AI_DL_Education
Takayoshi Yamashita
518 visualizações
•
17 slides
Similar a [DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
(20)
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
•
891 visualizações
ドライブレコーダの動画を使った道路情報の自動差分抽出
Tetsutaro Watanabe
•
5.2K visualizações
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
•
3.4K visualizações
「Google I/O 2018ふりかえり」What's new ARCore and ML Kit (Google APP DOJO資料)
嶋 是一 (Yoshikazu SHIMA)
•
590 visualizações
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
Toshiki Sakai
•
1.5K visualizações
AI_DL_Education
Takayoshi Yamashita
•
518 visualizações
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
Brocade
•
2.7K visualizações
A07 角田研究室7 板垣百華
aomorisix
•
26 visualizações
RWDC System I -Schedule(150411)
Leo Iijima
•
229 visualizações
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
Yamato OKAMOTO
•
3.7K visualizações
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
The Whole Brain Architecture Initiative
•
129 visualizações
[Japan Tech summit 2017] MAI 001
Microsoft Tech Summit 2017
•
321 visualizações
LiDAR点群と画像とのマッピング
Takuya Minagawa
•
10.2K visualizações
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
•
8.5K visualizações
SCORER Partner Summit 2018_ Yamasaki
Future Standard
•
89 visualizações
実社会・実環境におけるロボットの機械学習
Kuniyuki Takahashi
•
3K visualizações
Dojojag shima dis-tver-20170524
嶋 是一 (Yoshikazu SHIMA)
•
329 visualizações
3Dモデル類似検索
Core Concept Technologies
•
1.4K visualizações
高専カンファレンス@OSC2009SpringTokyo
Kuniaki Igarashi
•
1.8K visualizações
[2018/9/27(木): 三木会@大阪] プログラミング無しでここまでできる!Neural Network Console活用のススメ
Insight Technology, Inc.
•
2.1K visualizações
Mais de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
127 visualizações
•
28 slides
【DL輪読会】事前学習用データセットについて
Deep Learning JP
189 visualizações
•
20 slides
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
144 visualizações
•
26 slides
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
187 visualizações
•
30 slides
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
446 visualizações
•
15 slides
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
855 visualizações
•
29 slides
Mais de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
•
127 visualizações
【DL輪読会】事前学習用データセットについて
Deep Learning JP
•
189 visualizações
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
•
144 visualizações
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
•
187 visualizações
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
•
446 visualizações
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
•
855 visualizações
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
•
245 visualizações
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
•
183 visualizações
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
•
550 visualizações
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
•
399 visualizações
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
•
1K visualizações
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
•
366 visualizações
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
•
334 visualizações
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
•
581 visualizações
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
•
676 visualizações
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
•
289 visualizações
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
•
280 visualizações
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
792 visualizações
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
•
424 visualizações
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
207 visualizações
Último
GraphQLはどんな時に使うか
Yutaka Tachibana
8 visualizações
•
37 slides
テスト自動化.pdf
ssuserf8ea02
23 visualizações
•
26 slides
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
151 visualizações
•
16 slides
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
7 visualizações
•
11 slides
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
43 visualizações
•
20 slides
CatBoost on GPU のひみつ
Takuji Tahara
495 visualizações
•
30 slides
Último
(12)
GraphQLはどんな時に使うか
Yutaka Tachibana
•
8 visualizações
テスト自動化.pdf
ssuserf8ea02
•
23 visualizações
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
•
151 visualizações
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
•
7 visualizações
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
•
43 visualizações
CatBoost on GPU のひみつ
Takuji Tahara
•
495 visualizações
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
Matsushita Laboratory
•
27 visualizações
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
39 visualizações
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
•
108 visualizações
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
44 visualizações
画像生成AIの問題点
iPride Co., Ltd.
•
10 visualizações
遠隔お酌IoTLT2309.pptx
Yoshiaki Ito
•
134 visualizações
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
1.
1DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ Takumi Ohkuma, Nakayama Lab M2 DeepSignals: Predicting Intent of Drivers Through Visual Signals 2020/6/5
2.
自己紹介 大熊拓海(オオクマ タクミ)
東京大学 情報理工学系研究科 創造情報学専攻 中山研究室 M2 専門はfew-shot learning関連 現在のテーマはOpenset image recognitionとFew-shot learningの融合に関する 研究 共同研究で自動運転系の研究にも携わっている 2 2020/6/5
3.
書誌情報 題名:DeepSignals: Predicting
Intent of Drivers Through Visual Signals 出典:International Conference on Robotics and Automation (ICRA) 2019 著者:Davi Frossard, Eric Kee, Raquel Urtasun (Uberの研究チーム) URL:https://arxiv.org/pdf/1905.01333.pdf 3 2020/6/5
4.
概要 自動運転に必要な自動車の行動予測に関する研究 サブタスクとして、自動車のウィンカーや視点の推定も行う
Convolutional LSTMを用いることで精度の向上に貢献 Uberの自動運転プラットフォームを用いて大規模なデータセットを用意し、 実験を行う 4 2020/6/5
5.
メインタスク 自動車が写った連続画像を入力として受け取 り、その自動車が次にどのような行動をする かを予測する。 予測する行動の種類はLeft
Turn (左折), Right Turn (右折), Flashers (道路脇で停止), Off (その まま), Unknown (不明) の5クラスである。 5 2020/6/5
6.
サブタスク ウィンカー検出 (左右それぞれ
On, Off ,Unknown) 自動車は右折、左折、一時停止するときにはウィンカーを出す決まりになって いるので、これを使わない手はない。 対象となる自動車に対する視点 (前, 後, 左, 右) どの視点から対象となる自動車を見ているのか判別できないと、認識が難しい (同じ右折でも向きが変わってしまう) これらのタスクをサブタスクとして同時に学習させることで、メイン タスクである行動予測の精度を高めることが目的 6 2020/6/5
7.
モデルの概要 基本的には Attention
(a), CNN (b), Convolutional LSTM (c), FC (d)の流れである。 7 2020/6/5
8.
Attention, CNN Attention 何処に注目するかを示すヒートマップ
4層のCNNを用いており入力サイズは224×224×3、 出力サイズは224×224×1 元の画像とAttentionの出力をピクセルごとにかけ 合わせ、次のCNN (VGG16) の入力とする Input Attention CNN • Imagenet pretrained VGG16を用い、training中にfine tuningする。 • 出力サイズは7×7×512 8 2020/6/5
9.
Convolutional LSTM 通常のLSTMが内部でFCに基づく計算を行うのに 対し、ConvLSTMは畳み込みに基づく計算が行わ れる。
𝑋𝑡が時刻tにおけるVGG16 (もしくは下位のConvLSTM) より与えられる入力 𝐻𝑡が時刻tにおける出力 (次のConvLSTM層もしくはFC層に渡す値) 正則化のため (3) の出力にDropout 本研究では2層のConvLSTM層を用いる 隠れ層の次元は7×7×256, 出力サイズは 7×7×1024 9 2020/6/5
10.
データセット (1) ウィンカー検出用の公開された大規模データが無いので、研究チームが自作した。
Uberの自動運転プラットフォームから10Hzで連続画像を抜き出した 10,000以上の連続画像を作成し、フレーム総数は1,257,591 データ画像は予め自動車領域が抜き出されている (Detectionの必要はない)。 各フレームに行動予測, 左右ウィンカーのON, OFF, 自動車の向きのアノテーション ウィンカーに関してはフレームごとの点灯、消灯ではなく、連続時間で考えたときのON, OFFのラベルである。 点滅しているウィンカーに対しては、消灯しているフレームに対するラベルもONである。 10 2020/6/5
11.
データセット (2) occlusionや悪天候等、難しい状況の データも含まれている。 •
各クラスラベルのデータ数は以下の様に ばらつきがある。 11 2020/6/5
12.
学習 誤差関数は4つのheadのcross-entropy loss関数の重み付き和である
𝑦が予測ラベル, 𝑥が入力で, intent, left, right viewがそれぞれ 行動予測, 左ウィンカー, 右ウィン カー, 視点である。 ℒ 𝑦, 𝑥 θ = 𝑙𝑖𝑛𝑡𝑒𝑛𝑡 𝑦, 𝑥 θ + 𝑙𝑙𝑒𝑓𝑡 𝑦, 𝑥 θ + 𝑙 𝑟𝑖𝑔ℎ𝑡 𝑦, 𝑥 θ + 𝑙 𝑣𝑖𝑒𝑤 𝑦, 𝑥 θ 𝑙 𝑦, 𝑥 θ = γ 𝑐 𝑦𝑐log(σ 𝑐(𝑥|θ)) 全て微分可能であり、End-to-Endの学習を行う。 Adam optimizerを用い(パラメータの詳細等は論文を参照)、50epochの学習を行った。 25epochほどで大体収束するらしい 12 2020/6/5
13.
実験結果 (1) 行動予測に関して以下の様な混合行列が得られた
各行が正解ラベル、各列が予測ラベルに対応している • 偽陰性率(行動を予測できないでOFFと判断する)が高めになっている。 • 逆に偽陽性率はそれほど高くない。 • Flashersの精度が低い (データ数が少ないから?) 13 2020/6/5
14.
実験結果 (2) モデルアーキテクチャの有効性に関する実験 1. FC-LSTM:
CNNを用いずに元の画像を平滑化してLSTMに入力するモデル 2. ConvLSTM: CNNを用いずに元の画像をそのままConvLSTMに入力するもでる 3. CNN-LSTM: CNNの出力をConvLSTMではなく通常のLSTMに入力したものを比較実験に用いる。 • 1はCNNを用いておらず、画像の良い特徴量が得られていない。 • 2はConvLSTMの入力サイズが大きすぎてチャネル数や層数が非常に少なくなってしまい (3層, 8, 8, 3チャネル) 精度が出ない。 • 3とoursの差は、LSTMよりConvLSTMがこのタスクにおいて優れていることを示している。 14 2020/6/5
15.
実験結果(3) Ablation study 1はAttentionを抜いたとき、2はAttention にU-Netを用いた時に対応し、それぞれ 精度が低下している。
3, 4はウィンカー及び視点のサブタスク に関する実験で、これらを省くと精度が 劣化するので、サブタスクは行動推定に 対して有効に働いているとわかる。 5, 6は各種normalizationを導入した実験 であり、本タスクにおいては有効ではな いようである。 15 2020/6/5
16.
実験結果(4) Detectorを用いた場合の精度 本データセットはあらかじめ自動車の領域に切り取られた動画であるが、実際の自動運転 ではDetection部分から検出器を用いて自動で行う必要がある。 Detector部分の不正確性によって、行動推定の精度が下がらないかどうかを確かめる実験 の結果が以下である。
DetectorはLIDARを用いたものと書いてあるが、詳細は不明 • Detectorを用いた場合 でも(Detections) 多少の精度劣化は見られるが、十分機能する。 16 2020/6/5
17.
まとめ 自動運転に必要な自動車の行動予測に関する研究 サブタスクとして、自動車のウィンカーや視点の推定も行う
Convolutional LSTMを用いることで精度の向上に貢献 Uberの自動運転プラットフォームを用いて大規模なデータセットを用意 し、実験を行った。 17 2020/6/5
18.
感想 作成しているデータセットが大規模で素晴らしい(流石Uber)。 (120万フレーム, 10000Seqences)
データセットを公開してほしい。 純粋に研究に使いたい データセットを見られないので、例えば精度70%と言われても良くわからない 論文に載せてあるデータセットの図も少しわかりにくいので、実感がつかみにくい せっかくなのでウィンカー検出タスクの精度も公開してほしい。 ウィンカー検出タスクは自動運転パイプラインに組み込むこともできる重要なタスク なので、こちらの精度も出せているとすれば大きな研究成果であると思う。 18 2020/6/5