SlideShare a Scribd company logo
1 of 31
Download to read offline
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ドライブレコーダーの
Scene Text Recognitionにおける
Multi-task Learning
次世代モビリティ事業部 モビリティ研究開発グループ
⾼橋 ⽂彦
2019.07.13
CCSE2019
2
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
• 名前:⾼橋⽂彦
• 略歴
• 2015年4⽉ ヤフー株式会社 ⼊社
• 2018年8⽉ JapanTaxi株式会社 ⼊社
• 領域
• 画像処理、⾃然⾔語処理
• 過去の主な仕事
• 配⾞アプリのお迎え時間予測
• ECサイトの検索精度改善
• その他:PM、論⽂書いたり
• 趣味
• ボードゲーム、IoTガジェット
3
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
研究の背景
4
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
タクシーの
配⾞プラットフォーム
タクシー向け
ハードウェアメーカー
タクシーデータ
ビジネス
5
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
6
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
1⽇のタクシー動態の様⼦
7
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
センシングカーとしてのタクシー⾞両
8
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
データ活⽤による産業・社会課題の解決
機械学習などのデータ処理
● タクシー産業
● ⾃動運転
● 交通インフラ
メンテナンス
● 交通計画
● 地図情報
● 都市計画
● 環境
● 気象
タクシー運⾏で
⽣成されるデータ
データ駆動社会
9
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ガソリンスタンド料⾦の⾃動認識
10
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ガソリンスタンド料⾦の⾃動認識
11
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Scene Text Recognition
12
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ガソリンスタンド料⾦認識は難しい ‒ 解像度の低さ -
13
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
ガソリンスタンド料⾦認識は難しい ‒ 前後⽂脈がない ‒
単語は前後の⽂字から推測できるが、数字は推測できない
14
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
課題:学習データを収集するのが⼤変
100.0%
6.9% 2.7%
地図を利⽤しても3%程度しか学習データが集まらない
Detection
アノテーション
Recognition
アノテーション
Sampling
with location
Sampled images
Detected images Recognized images
地図とGPSの情報を使って
写っている可能性の⾼い画像を抽出
15
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
課題:学習データを収集するのが⼤変
100.0%
2.6% 0.2%
全体の0.2%程度しか学習データが集まらない
Random
Sampling
⾃動
Detection
Recognition
アノテーション
Detected images Recognized images
16
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
研究⽬的:
限られた学習データでScene Text Recognition
17
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
研究のアプローチ
18
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
⼀般的なSean Text Recognitionのモデル
CNN Layers Bi-LSTM Layers
Recognition
Layer
--1222--22-- 122
• CTC(Connectionist Temporal Classification)で⽂字列を予測
• ⾳声認識でも使われる系列予測の⼿法
[An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition,
Baoguang Shi et al., IEEE Trans. Pattern Anal. Mach. Intell. 2017]
CNN-RNN Model (baseline)
19
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
関連研究:Multi-task Learning
[An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, 2017]
関連する複数のタスクを同時に学習させることで、予測精度を向上させる
20
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
アプローチのアイディア
数字が写っていない画像が⼤量にある
→ 数字が 写っている or 写っていない のclassificationも学習させる
→ モデルに数字の形を学習させられるはず
数字が写っている 数字が写っていない
21
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Multi-task Learning of Scene Text Recognition
CNN Layers Bi-LSTM Layers
Recognition
Layer
122
• Classificationは数字が写っている場合1.0、写ってない場合0.0
• RecognitionとClassificationの両⽅のlossからBack Propagation
1.0
数字が写っている画像の学習
Classification
Layer
22
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
Multi-task Learning of Scene Text Recognition
CNN Layers Bi-LSTM Layers
Recognition
Layer
• ClassificationのlossからのみBack Propagation
• ClassificationのLoss functionはMean Squared Error
0.0
数字が写っていない画像の学習
Classification
Layer
23
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
その他Tips:
擬似画像でPre-training -> 実画像へtransfer Learning
24
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
実験
25
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
設定
• training set と validation setは2:8になるように時間軸で分割
• データ数に偏りがあるため、Classificationのサンプルごとの重みを画
像枚数の割合で設定
• 数字あり(Labeled):U/(U+L)
• 数字なし(Unlabeled):L/(U+L)
擬似画像
数字あり画像 5,280,000
数字なし画像 2,640,000
実画像
数字あり画像 402
数字なし画像 2,274
26
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
精度評価結果
Text Recognition Classification
Accuracy
Normalized Edit
Distance Precision Recall
Single-task Model 0.3088 0.3725 - -
Multi-task Model 0.6324 0.1618 0.8824 0.5217
• Multi-task Modelの⽅がRecognitionのAccuracyが⾼い
• 実⽤では…
• 画像サイズの⼤きさ画像と精度に相関があり、⾞両が近づけば⾼い
精度で認識可能
• フレーム間補完を⾏う
27
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
学習データ量と精度の関係
0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.0% 20.0% 40.0% 60.0% 80.0% 100.0%
Multi-task Model
Single-task Model
• Multi-taskは少量のデータでも⽴ち上が
りが早く、すでに鈍りが⾒えている
• Single-taskは学習データを増やすと精度
が線形に向上
28
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
学習データ量と精度の関係の予想
画像はイメージです
29
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
まとめ
30
Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
背景:ドライブレコーダーの動画からガソリンスタンドの料⾦を⾃動認識
課題:学習データを取集するのが⼤変
結論:
• 数字じゃない形(データが⼤量)も学習することで少ないデータで精度が向上
• 学習データが少ない時にもMulti-task Learningは有効
• 実⽤上、数字が書かれているかどうかの判定は必要なので、1つのモデルに詰め
込めたのは⼀⽯⼆⿃だった
〒102-0094 東京都千代⽥区紀尾井町3-12
3-12 Kioicho Chiyoda-ku, Tokyo 102-0094 Japan
TEL 03-6265-6265 FAX 03-3239-8115
www.japantaxi.co.jp
⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。
Proprietary and Confidential ©2017 JapanTaxi, Inc.
All Rights Reserved

More Related Content

Similar to ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning

JapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析についてJapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析についてMasatoshi Ida
 
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用Tetsutaro Watanabe
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Koichi Hamada
 
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術ナレッジコミュニケーション
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
 
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616Ridge-i
 
Dll講演資料 2017616
Dll講演資料 2017616Dll講演資料 2017616
Dll講演資料 2017616NORIKO HOSAKA
 
AIベンチャー企業のパフォーマンス
AIベンチャー企業のパフォーマンスAIベンチャー企業のパフォーマンス
AIベンチャー企業のパフォーマンスCore Concept Technologies
 
BigQueryを活用したPrivate DMPを作って使ってるお話
BigQueryを活用したPrivate DMPを作って使ってるお話BigQueryを活用したPrivate DMPを作って使ってるお話
BigQueryを活用したPrivate DMPを作って使ってるお話Masato Kawada
 
Rancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げるRancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げるMichitaka Terada
 
Ibm watson api サービス
Ibm watson api サービスIbm watson api サービス
Ibm watson api サービスHiroaki Komine
 
ソフトウエアジャパン2017 IT Forum AITC(1)
ソフトウエアジャパン2017 IT Forum AITC(1)ソフトウエアジャパン2017 IT Forum AITC(1)
ソフトウエアジャパン2017 IT Forum AITC(1)aitc_jp
 
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2Sei Kato (加藤 整)
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHIKamonohashi
 
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみたタクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみたTetsutaro Watanabe
 
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬る【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬るDevelopers Summit
 

Similar to ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning (20)

JapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析についてJapanTaxiが保有するデータとデータ分析について
JapanTaxiが保有するデータとデータ分析について
 
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
 
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616
 
Dll講演資料 2017616
Dll講演資料 2017616Dll講演資料 2017616
Dll講演資料 2017616
 
AIベンチャー企業のパフォーマンス
AIベンチャー企業のパフォーマンスAIベンチャー企業のパフォーマンス
AIベンチャー企業のパフォーマンス
 
(2017.9.7) Neo4jご紹介
(2017.9.7) Neo4jご紹介(2017.9.7) Neo4jご紹介
(2017.9.7) Neo4jご紹介
 
BigQueryを活用したPrivate DMPを作って使ってるお話
BigQueryを活用したPrivate DMPを作って使ってるお話BigQueryを活用したPrivate DMPを作って使ってるお話
BigQueryを活用したPrivate DMPを作って使ってるお話
 
Rancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げるRancherを活用して開発効率を上げる
Rancherを活用して開発効率を上げる
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
Ibm watson api サービス
Ibm watson api サービスIbm watson api サービス
Ibm watson api サービス
 
ソフトウエアジャパン2017 IT Forum AITC(1)
ソフトウエアジャパン2017 IT Forum AITC(1)ソフトウエアジャパン2017 IT Forum AITC(1)
ソフトウエアジャパン2017 IT Forum AITC(1)
 
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
ポストAiを見据えた日本企業の経営戦略 加藤整 20171020_v1.2
 
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI
 
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみたタクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
 
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬る【17-D-1】今どきのアーキテクチャを現場の立場で斬る
【17-D-1】今どきのアーキテクチャを現場の立場で斬る
 
Custom Vision
Custom VisionCustom Vision
Custom Vision
 
テクノロジの隆盛
テクノロジの隆盛テクノロジの隆盛
テクノロジの隆盛
 

ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning

  • 1. Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning 次世代モビリティ事業部 モビリティ研究開発グループ ⾼橋 ⽂彦 2019.07.13 CCSE2019
  • 2. 2 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved • 名前:⾼橋⽂彦 • 略歴 • 2015年4⽉ ヤフー株式会社 ⼊社 • 2018年8⽉ JapanTaxi株式会社 ⼊社 • 領域 • 画像処理、⾃然⾔語処理 • 過去の主な仕事 • 配⾞アプリのお迎え時間予測 • ECサイトの検索精度改善 • その他:PM、論⽂書いたり • 趣味 • ボードゲーム、IoTガジェット
  • 3. 3 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 研究の背景
  • 4. 4 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved タクシーの 配⾞プラットフォーム タクシー向け ハードウェアメーカー タクシーデータ ビジネス
  • 5. 5 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
  • 6. 6 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 1⽇のタクシー動態の様⼦
  • 7. 7 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved センシングカーとしてのタクシー⾞両
  • 8. 8 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved データ活⽤による産業・社会課題の解決 機械学習などのデータ処理 ● タクシー産業 ● ⾃動運転 ● 交通インフラ メンテナンス ● 交通計画 ● 地図情報 ● 都市計画 ● 環境 ● 気象 タクシー運⾏で ⽣成されるデータ データ駆動社会
  • 9. 9 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦の⾃動認識
  • 10. 10 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦の⾃動認識
  • 11. 11 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Scene Text Recognition
  • 12. 12 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦認識は難しい ‒ 解像度の低さ -
  • 13. 13 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦認識は難しい ‒ 前後⽂脈がない ‒ 単語は前後の⽂字から推測できるが、数字は推測できない
  • 14. 14 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 課題:学習データを収集するのが⼤変 100.0% 6.9% 2.7% 地図を利⽤しても3%程度しか学習データが集まらない Detection アノテーション Recognition アノテーション Sampling with location Sampled images Detected images Recognized images 地図とGPSの情報を使って 写っている可能性の⾼い画像を抽出
  • 15. 15 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 課題:学習データを収集するのが⼤変 100.0% 2.6% 0.2% 全体の0.2%程度しか学習データが集まらない Random Sampling ⾃動 Detection Recognition アノテーション Detected images Recognized images
  • 16. 16 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 研究⽬的: 限られた学習データでScene Text Recognition
  • 17. 17 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 研究のアプローチ
  • 18. 18 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ⼀般的なSean Text Recognitionのモデル CNN Layers Bi-LSTM Layers Recognition Layer --1222--22-- 122 • CTC(Connectionist Temporal Classification)で⽂字列を予測 • ⾳声認識でも使われる系列予測の⼿法 [An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition, Baoguang Shi et al., IEEE Trans. Pattern Anal. Mach. Intell. 2017] CNN-RNN Model (baseline)
  • 19. 19 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 関連研究:Multi-task Learning [An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, 2017] 関連する複数のタスクを同時に学習させることで、予測精度を向上させる
  • 20. 20 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved アプローチのアイディア 数字が写っていない画像が⼤量にある → 数字が 写っている or 写っていない のclassificationも学習させる → モデルに数字の形を学習させられるはず 数字が写っている 数字が写っていない
  • 21. 21 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer 122 • Classificationは数字が写っている場合1.0、写ってない場合0.0 • RecognitionとClassificationの両⽅のlossからBack Propagation 1.0 数字が写っている画像の学習 Classification Layer
  • 22. 22 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer • ClassificationのlossからのみBack Propagation • ClassificationのLoss functionはMean Squared Error 0.0 数字が写っていない画像の学習 Classification Layer
  • 23. 23 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved その他Tips: 擬似画像でPre-training -> 実画像へtransfer Learning
  • 24. 24 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 実験
  • 25. 25 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 設定 • training set と validation setは2:8になるように時間軸で分割 • データ数に偏りがあるため、Classificationのサンプルごとの重みを画 像枚数の割合で設定 • 数字あり(Labeled):U/(U+L) • 数字なし(Unlabeled):L/(U+L) 擬似画像 数字あり画像 5,280,000 数字なし画像 2,640,000 実画像 数字あり画像 402 数字なし画像 2,274
  • 26. 26 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 精度評価結果 Text Recognition Classification Accuracy Normalized Edit Distance Precision Recall Single-task Model 0.3088 0.3725 - - Multi-task Model 0.6324 0.1618 0.8824 0.5217 • Multi-task Modelの⽅がRecognitionのAccuracyが⾼い • 実⽤では… • 画像サイズの⼤きさ画像と精度に相関があり、⾞両が近づけば⾼い 精度で認識可能 • フレーム間補完を⾏う
  • 27. 27 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 学習データ量と精度の関係 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% Multi-task Model Single-task Model • Multi-taskは少量のデータでも⽴ち上が りが早く、すでに鈍りが⾒えている • Single-taskは学習データを増やすと精度 が線形に向上
  • 28. 28 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 学習データ量と精度の関係の予想 画像はイメージです
  • 29. 29 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved まとめ
  • 30. 30 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 背景:ドライブレコーダーの動画からガソリンスタンドの料⾦を⾃動認識 課題:学習データを取集するのが⼤変 結論: • 数字じゃない形(データが⼤量)も学習することで少ないデータで精度が向上 • 学習データが少ない時にもMulti-task Learningは有効 • 実⽤上、数字が書かれているかどうかの判定は必要なので、1つのモデルに詰め 込めたのは⼀⽯⼆⿃だった
  • 31. 〒102-0094 東京都千代⽥区紀尾井町3-12 3-12 Kioicho Chiyoda-ku, Tokyo 102-0094 Japan TEL 03-6265-6265 FAX 03-3239-8115 www.japantaxi.co.jp ⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved