Submit Search
Upload
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
•
0 likes
•
8 views
Fumihiko Takahashi
Follow
2019年7月に公開した資料です。
Read less
Read more
Data & Analytics
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 31
Download now
Download to read offline
Recommended
ドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionする
Fumihiko Takahashi
JapanTaxi R&Dの取り組み事例
JapanTaxi R&Dの取り組み事例
Fumihiko Takahashi
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
Ridge-i
広告における機械学習の適用例とシステムについて
広告における機械学習の適用例とシステムについて
Yahoo!デベロッパーネットワーク
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
Tetsutaro Watanabe
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例
Hirono Jumpei
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例
Hirono Jumpei
JapanTaxiのAI活用事例
JapanTaxiのAI活用事例
Fumihiko Takahashi
Recommended
ドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionする
Fumihiko Takahashi
JapanTaxi R&Dの取り組み事例
JapanTaxi R&Dの取り組み事例
Fumihiko Takahashi
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
[Ridge-i] Deep Learning Lab - ディープラーニング 導入の課題と実例
Ridge-i
広告における機械学習の適用例とシステムについて
広告における機械学習の適用例とシステムについて
Yahoo!デベロッパーネットワーク
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
Tetsutaro Watanabe
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例
Hirono Jumpei
深層学習の導入で抱える課題とユースケース実例
深層学習の導入で抱える課題とユースケース実例
Hirono Jumpei
JapanTaxiのAI活用事例
JapanTaxiのAI活用事例
Fumihiko Takahashi
JapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析について
Masatoshi Ida
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
Tetsutaro Watanabe
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
Koichi Hamada
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
ナレッジコミュニケーション
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
DeNA
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616
Ridge-i
Dll講演資料 2017616
Dll講演資料 2017616
NORIKO HOSAKA
AIベンチャー企業のパフォーマンス
AIベンチャー企業のパフォーマンス
Core Concept Technologies
(2017.9.7) Neo4jご紹介
(2017.9.7) Neo4jご紹介
Mitsutoshi Kiuchi
BigQueryを活用したPrivate DMPを作って使ってるお話
BigQueryを活用したPrivate DMPを作って使ってるお話
Masato Kawada
Rancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げる
Michitaka Terada
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
Yahoo!デベロッパーネットワーク
Ibm watson api サービス
Ibm watson api サービス
Hiroaki Komine
ソフトウエアジャパン2017 IT Forum AITC(1)
ソフトウエアジャパン2017 IT Forum AITC(1)
aitc_jp
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
Sei Kato (加藤 整)
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
Kamonohashi
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
Tetsutaro Watanabe
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
Developers Summit
Custom Vision
Custom Vision
Tomokazu Kizawa
テクノロジの隆盛
テクノロジの隆盛
Core Concept Technologies
More Related Content
Similar to ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
JapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析について
Masatoshi Ida
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
Tetsutaro Watanabe
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
Koichi Hamada
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
ナレッジコミュニケーション
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
DeNA
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616
Ridge-i
Dll講演資料 2017616
Dll講演資料 2017616
NORIKO HOSAKA
AIベンチャー企業のパフォーマンス
AIベンチャー企業のパフォーマンス
Core Concept Technologies
(2017.9.7) Neo4jご紹介
(2017.9.7) Neo4jご紹介
Mitsutoshi Kiuchi
BigQueryを活用したPrivate DMPを作って使ってるお話
BigQueryを活用したPrivate DMPを作って使ってるお話
Masato Kawada
Rancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げる
Michitaka Terada
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
Yahoo!デベロッパーネットワーク
Ibm watson api サービス
Ibm watson api サービス
Hiroaki Komine
ソフトウエアジャパン2017 IT Forum AITC(1)
ソフトウエアジャパン2017 IT Forum AITC(1)
aitc_jp
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
Sei Kato (加藤 整)
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
Kamonohashi
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
Tetsutaro Watanabe
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
Developers Summit
Custom Vision
Custom Vision
Tomokazu Kizawa
テクノロジの隆盛
テクノロジの隆盛
Core Concept Technologies
Similar to ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
(20)
JapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析について
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616
Dll講演資料 2017616
Dll講演資料 2017616
AIベンチャー企業のパフォーマンス
AIベンチャー企業のパフォーマンス
(2017.9.7) Neo4jご紹介
(2017.9.7) Neo4jご紹介
BigQueryを活用したPrivate DMPを作って使ってるお話
BigQueryを活用したPrivate DMPを作って使ってるお話
Rancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げる
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
Ibm watson api サービス
Ibm watson api サービス
ソフトウエアジャパン2017 IT Forum AITC(1)
ソフトウエアジャパン2017 IT Forum AITC(1)
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
Custom Vision
Custom Vision
テクノロジの隆盛
テクノロジの隆盛
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
1.
Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning 次世代モビリティ事業部 モビリティ研究開発グループ ⾼橋 ⽂彦 2019.07.13 CCSE2019
2.
2 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved • 名前:⾼橋⽂彦 • 略歴 • 2015年4⽉ ヤフー株式会社 ⼊社 • 2018年8⽉ JapanTaxi株式会社 ⼊社 • 領域 • 画像処理、⾃然⾔語処理 • 過去の主な仕事 • 配⾞アプリのお迎え時間予測 • ECサイトの検索精度改善 • その他:PM、論⽂書いたり • 趣味 • ボードゲーム、IoTガジェット
3.
3 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 研究の背景
4.
4 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved タクシーの 配⾞プラットフォーム タクシー向け ハードウェアメーカー タクシーデータ ビジネス
5.
5 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved
6.
6 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 1⽇のタクシー動態の様⼦
7.
7 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved センシングカーとしてのタクシー⾞両
8.
8 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved データ活⽤による産業・社会課題の解決 機械学習などのデータ処理 ● タクシー産業 ● ⾃動運転 ● 交通インフラ メンテナンス ● 交通計画 ● 地図情報 ● 都市計画 ● 環境 ● 気象 タクシー運⾏で ⽣成されるデータ データ駆動社会
9.
9 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦の⾃動認識
10.
10 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦の⾃動認識
11.
11 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved Scene Text Recognition
12.
12 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦認識は難しい ‒ 解像度の低さ -
13.
13 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦認識は難しい ‒ 前後⽂脈がない ‒ 単語は前後の⽂字から推測できるが、数字は推測できない
14.
14 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 課題:学習データを収集するのが⼤変 100.0% 6.9% 2.7% 地図を利⽤しても3%程度しか学習データが集まらない Detection アノテーション Recognition アノテーション Sampling with location Sampled images Detected images Recognized images 地図とGPSの情報を使って 写っている可能性の⾼い画像を抽出
15.
15 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 課題:学習データを収集するのが⼤変 100.0% 2.6% 0.2% 全体の0.2%程度しか学習データが集まらない Random Sampling ⾃動 Detection Recognition アノテーション Detected images Recognized images
16.
16 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 研究⽬的: 限られた学習データでScene Text Recognition
17.
17 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 研究のアプローチ
18.
18 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved ⼀般的なSean Text Recognitionのモデル CNN Layers Bi-LSTM Layers Recognition Layer --1222--22-- 122 • CTC(Connectionist Temporal Classification)で⽂字列を予測 • ⾳声認識でも使われる系列予測の⼿法 [An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition, Baoguang Shi et al., IEEE Trans. Pattern Anal. Mach. Intell. 2017] CNN-RNN Model (baseline)
19.
19 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 関連研究:Multi-task Learning [An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, 2017] 関連する複数のタスクを同時に学習させることで、予測精度を向上させる
20.
20 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved アプローチのアイディア 数字が写っていない画像が⼤量にある → 数字が 写っている or 写っていない のclassificationも学習させる → モデルに数字の形を学習させられるはず 数字が写っている 数字が写っていない
21.
21 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer 122 • Classificationは数字が写っている場合1.0、写ってない場合0.0 • RecognitionとClassificationの両⽅のlossからBack Propagation 1.0 数字が写っている画像の学習 Classification Layer
22.
22 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer • ClassificationのlossからのみBack Propagation • ClassificationのLoss functionはMean Squared Error 0.0 数字が写っていない画像の学習 Classification Layer
23.
23 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved その他Tips: 擬似画像でPre-training -> 実画像へtransfer Learning
24.
24 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 実験
25.
25 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 設定 • training set と validation setは2:8になるように時間軸で分割 • データ数に偏りがあるため、Classificationのサンプルごとの重みを画 像枚数の割合で設定 • 数字あり(Labeled):U/(U+L) • 数字なし(Unlabeled):L/(U+L) 擬似画像 数字あり画像 5,280,000 数字なし画像 2,640,000 実画像 数字あり画像 402 数字なし画像 2,274
26.
26 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 精度評価結果 Text Recognition Classification Accuracy Normalized Edit Distance Precision Recall Single-task Model 0.3088 0.3725 - - Multi-task Model 0.6324 0.1618 0.8824 0.5217 • Multi-task Modelの⽅がRecognitionのAccuracyが⾼い • 実⽤では… • 画像サイズの⼤きさ画像と精度に相関があり、⾞両が近づけば⾼い 精度で認識可能 • フレーム間補完を⾏う
27.
27 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 学習データ量と精度の関係 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% Multi-task Model Single-task Model • Multi-taskは少量のデータでも⽴ち上が りが早く、すでに鈍りが⾒えている • Single-taskは学習データを増やすと精度 が線形に向上
28.
28 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 学習データ量と精度の関係の予想 画像はイメージです
29.
29 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved まとめ
30.
30 Proprietary and Confidential
©2017 JapanTaxi, Inc. All Rights Reserved 背景:ドライブレコーダーの動画からガソリンスタンドの料⾦を⾃動認識 課題:学習データを取集するのが⼤変 結論: • 数字じゃない形(データが⼤量)も学習することで少ないデータで精度が向上 • 学習データが少ない時にもMulti-task Learningは有効 • 実⽤上、数字が書かれているかどうかの判定は必要なので、1つのモデルに詰め 込めたのは⼀⽯⼆⿃だった
31.
〒102-0094 東京都千代⽥区紀尾井町3-12 3-12 Kioicho
Chiyoda-ku, Tokyo 102-0094 Japan TEL 03-6265-6265 FAX 03-3239-8115 www.japantaxi.co.jp ⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Download now