深層学習を用いたバス乗客画像の属性推定に関する研究

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
深層学習を用いたバス乗客画像の属性推定
に関する研究
A Study on Attribute Estimation of Bus
Passenger Images Using Deep Learning
北海道大学大学院情報科学院
情報理工学部門複合情報工学分野調和系工学研究室
修士２年鐘支俊

研究背景 2
• 乗合バス事業の経常収支率は平成27年以降悪化傾向にある[1]
• 業務・サービスの改善が求められる
– 路線計画・ダイヤの効率化
– 車内安全確保
• 移動人物，荷物の検出
• 子連れ、高齢者などの補助
➞ 優先席へ誘導する、運転手の注意を喚起
– 乗客利用状況の把握
• 通勤、通学、旅行などの利用目的の推測
➞ 路線策定、運行管理
• バス事業者が分析フェーズで活用
➞ 車内デザイン、車内広告の効果を高める
• 乗客の属性情報がサービスの改善において重要
– 車内安全確保
➞ 乗客の把握には子連れ、高齢者、乳幼児などの属性情報が必要
– 乗客利用状況の把握
➞ 学生、旅行者などの属性情報が有用
平成27年~令和2年
[1] 日本のバス事業，日本バス協会, 2021年度版(令和３年度), https://www.bus.or.jp/about/pdf/2021_busjigyo.pdf

各種サービスに必要なデータの収集について 3
• 路線計画，ダイヤの効率化 ➞ 乗客OD(Origin-Destination)データ
• 車内安全確保、乗客利用情報 ➞ 乗客の属性情報
• 従来のデータ収集方法
– ICカード：
• データ取得に追加料金が必要
• 全員が利用してるわけではない
– SAPICA記名カードの発行枚数は約全体の6割[2]
– 調査員の派遣：
• 人手が必要で高コスト
バス車内にカメラを設置
事業者のみでも実施可能
本研究の対象：
 乗降する人物の一連の画像に対して属性推定を行う
• 女性
• 70s
...
乗車： ...
降車：
[2]サピカ、新たに図書貸出券機能札幌市内４０カ所で利用可能へ”. 北海道新聞, https://www.hokkaido-np.co.jp/news/sapporo/554686.html.

4
研究目的
• 深層学習を用いた属性推定手法の提案
– バス乗客の性別、年代、持ち物属性を推定
– 応用可能な精度（85%）を達成
• 本発表の内容
– 人物追跡手法により同一人物の画像を取得
– 人物属性推定器Swin Transformerを用いた属性推定
手法の提案
– 検証データによる評価と比較

5
乗客属性推定の流れ
想定するシステム
バス停毎に乗車・降車の
映像を撮影
顔検出と
モザイク処理
人物
検出器
人物
追跡器
車内画像データ
処理済み
画像
同一人物
画像
人物
矩形属性
推定器
• 女性
• 30-40s
本研究

6
属性定義
• 選定理由：
– バス事業者のニーズ
• 車内デザイン、車内広告の効果を高める
– 実応用に役に立つ
• 乗客の利用目的の推定（通学）
• 助けが必要な乗客の把握（高齢者、子連れ、旅行者）
• 女性
• 男性
性別
• 0-5
• 6-19
• 20s
• 30-40s
• 50-60s
• 70~
年代
• 学生
• 子連れ
• 旅行者（スーツケースを持つ）
その他
0-5 6-19 20s 30-40s 50-60s 70s
学生子連れ旅行者
女性男性

7
データの収集
データ
セット
撮影時期画像数人物数
人物ごと
の画像数
補足
①
2021-11
& 2022-01
3,198 527 1~20
実験1用
（交差検証）
② 2022-01 697 25 8~53
実験2用
（モデルの評価）
• 収集したデータセット
① ：交差検証実験でモデルを学習させる
② ：交差検証実験で得たモデルを評価
• 撮影環境：
• バス：実際に札幌市内を走行する路線バス
• 時間帯：12:30-17:30

8
バス乗客画像を用いた属性推定の難しさ
• 画像特徴
• アノテーション
 属性真値を取得するのは難しいため個人による目視でアノテーション
 画像から判断するため誤差を含む
• データセット分布
 属性ごとの画像分布は不均衡
 0-5、子連れと旅行者の画像数は非常に少ない
 地域や路線によるデータの分布と特徴が異なる
人物や手すりの
オクルージョン
人物の顔の
モザイク処理
太陽光による
白飛びと黒つぶれ
カメラの設置位置の
制約による画角の限界

9
従来研究(1/2)
• 人物属性推定
– 防犯カメラへの応用
• 服装、外見と持ち物などの属性の推定が多い[3]
– 従来の人物属性推定手法
• 色やテクスチャのヒストグラムなどの特徴量に依存[4]
• 単一の人物画像に対する属性推定手法が多い[5]
– 深層学習の導入
• 人物属性推定の手法ALMが高いパフォーマンスを発揮[6]
• Swin Transformer
– CVのバックボーンとして高い性能を実現
– 分類タスクでSOTAを達成[7]
• 本研究ではバスで撮った同一人物の複数の画像に対して、
属性推定を行う
[3] Dangwei Li, Xiaotang Chen, and Kaiqi Huang. Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios. In2015 3rd IAPR Asian Conference on Pattern Recognition
(ACPR), pages 111–115. IEEE, 2015
[4] Yubin Deng, Ping Luo, Chen Change Loy, and Xiaoou Tang. Pedestrian attribute recognition at far distance. In Proceedings of the 22nd ACM international conference on Multimedia, pages 789–792,
2014.
[5] Wang, Xiao, et al. "Pedestrian attribute recognition: A survey." Pattern Recognition 121 (2022): 108220.
[6] Chufeng Tang, Lu Sheng, Zhaoxiang Zhang, and Xiaolin Hu. Improving pedestrian attribute recognition with weakly-supervised multiscale attribute-specific localization. In Proceedings of the
IEEE/CVF International Conference on Computer Vision (ICCV), October 2019
[7] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the
IEEE/CVF International Conference on Computer Vision, pages 10012–10022, 2021

10
従来研究(2/2)
• 従来の属性推定の精度[8]
データ
セット
属性数主な属性画像数人物数
SOTA
(%)
特徴
PETA [9] 65 年代、服装、
持ち物、髪型
19,000 8,705 83.96 オクルージョンなし
RAP2.0 [10] 72 ジェスチャー、服装、
髪型、持ち物
84,928 26,638 78.25 オクルージョンあり
PA100k [11] 26 服装、持ち物、
性別、人物向き
100,000 18,206 80.21 オクルージョンなし
本研究 11 年代、性別、
学生、旅行者、子連れ
3,895 552 - 人物の顔にモザイク処理、
車内の明るさの変化、
オクルージョン（人、ドア、手すり）
[8] ia, J., Huang, H., Chen, X. and Huang, K.: Rethinking of pedestrian attribute recognition: A reliable evaluation under zero-shot pedestrian identitysetting, arXiv preprint
arXiv:2107.03576 (2021)
[9] Y. Deng, P. Luo, C. C. Loy, X. Tang, "Pedestrian attribute recognition at far distance," in Proceedings of ACM Multimedia (ACM MM), 2014.
[10] Li, Dangwei, et al. "A richly annotated pedestrian dataset for person retrieval in real surveillance scenarios." IEEE transactions on image processing 28.4 (2018): 1575-
1590.
PETA の画像例 RAP2.0 の画像例 PA100k の画像例本研究の画像例

11
属性推定器
• 入力画像の前処理
 平坦化処理、ガンマ補正、データ拡張手法を適用
 画像の特徴問題対応には有効であることを予備実験で検証済み
• 属性の出力
 分類の中で信頼度が最も高い属性を出力
 属性の二重付与問題に対応

12
推定モデル
1. Swin Transformer による3つの特徴マップを抽出
 属性推定はmulti-class分類タスク
 Swin Transformerはmulti-classタスクにおいて高い精度を実現
2. 抽出した特徴をALMに入力、属性ごとの信頼度を出力
 ALMは属性推定タスクで SOTA を達成
3. ALMの出力とSwin Transformerの出力を統合
4. 同じ分類の中で信頼度が最も高い属性を出力
信頼度が
最も高い
属性
１
２
３
４

13
閾値で最終的な属性を決定
 閾値で最終的な属性を決定する：
検出したフレーム数
トータルフレーム数
≥ 閾値𝑎𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒
 性別と年代クラス中で値が最も高い属性を出力
女性
30s
女性
30s
旅行者
女性
20s
女性
20s
学生
女性
30s
女性
20s
学生
• 女性: 1.00
• 30s: 0.67
• 20s: 0.33
• 旅行者: 0.33
• 女性: 1.00
• 20s: 0.67
• 30s: 0.33
• 学生: 0.67
④
• 女性
• 30s
• 女性
• 20s
• 学生
>= 0.5
>= 0.5
 閾値を用いずに尤度の合計から属性判定をする手法もあるが、実験結果を分
析する必要があるために各人に対して閾値で属性を決定

14
実験設定
• 実験設定:
– 学習GPU:
• GeForce GTX TITAN X * 4
– ImageNet-1K[12]データセットでSwin Transformerを事前学習
• 精度が最も高いバージョンSwin Lを使用
• 実環境への第一段階であるため，推論時間より精度の方が重要
– パラメータ設定：
• 評価指標:
– BA (Balanced Accuracy) = (
𝑇𝑃
𝑇𝑃+𝐹𝑁
+
𝑇𝑁
𝐹𝑃+𝑇𝑁
) ×
1
2
Parameter Setting
Input size 384×384
Epoch 60
Batch size 8
Optimizer Adam
Learning rate 0.0001
[12] Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K. and Fei-Fei, L.: Imagenet: A large-scale hierarchical image database, 2009 IEEE conference on computer vision and
pattern recognition, Ieee, pp.248–255 (2009).

15
実験1：交差検証 (1/3)
• データセット①
• 学習方法：Group K-Fold + Stratified K-Fold
– 人物IDと属性比率によって五個のFoldを分けて学習
– 各Foldのtrainとtestで属性の分布を同じにする
– 通常のKFold手法より効果がある
• 各Foldの実験結果比較：
– Fold-0はベストモデル
データ
セット
撮影時期画像数人物数
人物ごと
の画像数
補足
①
2021-11
& 2022-01
3,198 527 1~20
実験1用
（交差検証）
Fold BA
Fold-0 0.730
Fold-1 0.669
Fold-2 0.698
Fold-3 0.706
Fold-4 0.705
平均 0.707

16
• 閾値を決める実験
– 前述の実験では属性ごとに閾値一律0.5として設定
– 閾値は0~1の範囲で0.01ずつ変化させて検証実験を実施
– BAが最も高い時の閾値を採用
– 最適な閾値を適用することで、属性推定の結果が5.6%上昇
クラス属性
BA
Threshold = 0.5
BA 閾値
性別
女性 0.844 0.859 0.55
男性 0.837 0.847 0.57
年代
0-5 0.850 0.960 0.08
6-19 0.792 0.812 0.39
20s 0.673 0.685 0.12
30-40s 0.615 0.663 0.09
50-60s 0.639 0.688 0.31
70~ 0.836 0.850 0.08
その他
学生 0.772 0.775 0.59
子連れ 0.562 0.688 0.21
旅行者 0.497 0.710 0.13
平均 0.720 0.776
最適
閾値
閾値による属性ごとの精度の変化

17
• 全画像と人物ごとの比較実験
– 全画像：単一の人物画像に対して評価
– 人物ごと：同一人物の複数画像に対して評価
• 同一人物の複数画像を使うことで、BAが6.9%向上
– 各属性のBAが上昇
– 旅行者と子連れの検出は大幅に改善
– 20s~60s年代属性の精度の向上は比較的低い
クラス属性全画像人物ごと
性別
女性 0.795 0.859
男性 0.793 0.847
年代
0-5 0.862 0.960
6-19 0.747 0.812
20s 0.651 0.685
30-40s 0.638 0.663
50-60s 0.611 0.688
70~ 0.785 0.850
その他
学生 0.739 0.775
子連れ 0.575 0.688
旅行者 0.580 0.710
平均 0.707 0.776

18
実験２：データセット②での検証結果 (1/4)
• 実験２設定：
– データセット②
– 実験１で得た最適閾値を適用
– 実験１で得たFold-0のモデルを使用
• 人物ごとで平均精度が3%上昇
– 男性、0-19、70~の属性推定精度が大幅向上
– 女性、20s-60s、学生の属性精度少し低下
– 子連れと旅行者の精度はほぼ変化なし
クラス属性全画像人物ごと
性別
女性 0.799 0.783
男性 0.694 0.783
年代
0-5 0.991 1.000
6-19 0.772 0.925
20s 0.602 0.549
30-40s 0.708 0.697
50-60s 0.535 0.500
70~ 0.731 0.935
その他
学生 0.730 0.711
子連れ 0.994 1.000
旅行者 0.499 0.500
平均 0.732 0.762
データセット撮影時期画像数人物数
人物ごと
の画像数
補足
② 2022-01 697 25 8~53 テスト実験でのみ使う

19
実験2：データセット②での検証結果 (2/4)
• 年代クラスの結果（画像ごと）
– 697枚画像
– 年代の誤分類幅のばらつきが大きい
• 20sと50-60sの年代分類は一個ずれている画像が多い
年代属性ごとの誤分類幅と画像数
年代属性の混同行列結果

20
年代の誤推定の画像例
FP: 0-5 GT: 70~
全身にモザイク
FP: 0-5 GT: 20s
黒つぶれかつ
上半身が乗客と
FP: 70~ GT: 50-60s
黒つぶれ
（画像ピクセルのヒスト
グラムが左に偏っている）
FP: 30-40s GT: 50-60s
後ろ姿により人目にも
判別しにくい
FP: 70~ GT: 20s
全身にモザイクかつ
FP: False Positive
GT: Ground Truth

21
• 年代クラスの結果（人物ごと）
– 25人中14人を誤推定
– 20sと50-60sの分類結果は一個ずれている例が多い
– 画像ごとの結果と比べ、年代が大幅にずれている例が減少
年代属性ごとの誤分類幅と人数
年代属性の混同行列結果

22
• 他のクラスの結果
– 性別
• 25人中4人を誤推定
– 学生：
• 25人中7人を誤推定
– 子連れ：
• データセットに含まない
– 旅行者：
• 検出できなかった
クラス属性 TN FP FN TP
性別
女性 16 1 3 5
男性 5 3 1 16
その他
学生 11 3 4 7
子連れ 25 0 0 0
旅行者 24 0 1 0

23
実験2：結果例(1/3)
• 間違った結果例
• 女性
• 20s
乗車画像には黒つぶれが多くかつ
降車画像にスーツケースが映らなかった
ことが原因で年代と旅行者を誤推定
• 男性
• 30-40s
乗車画像には黒つぶれが多くかつ
降車画像でのモザイク処理と服装が
原因で性別と年代の誤推定
GT:
• 女性
• 30-40s
• 旅行者
GT:
• 女性
• 50-60s
推定：
推定：
...
...

24
• 間違った結果例
• 男性
• 30-40s
• 学生
乗車画像でのモザイク処理かつ
コートとカバンの色が近いことが
原因で年代の誤推定
降車画像の明るさが要因で服装
が変わって見える問題と髪型が
原因で性別と学生の誤推定
• 男性
• 70~
GT:
• 男性
• 20s
GT:
• 女性
• 30-40s
推定：
推定：
...
...

25
• 正しく推定できた例
– 一部のフレームで誤推定が出たが、最終的な結果は正しい
• 女性
• 30-40s
• 女性
• 20s
• 学生
フレーム数：35
属性検出した数
女性 19
男性 16
0-5 1
6-19 12
20s 21
30-40s 1
学生 23
フレーム数：47
属性検出した数
女性 30
男性 17
6-19 1
20s 12
30-40s 29
70s 5
学生 4
...
...

26
学習画像数による精度の変化を検証
• 画像数が多い属性に対して、学習に用いられる画像数を減ら
して、精度の変化を検証
 学習画像を減らしたら、精度の低下が見られた
 学生と20s属性の精度が大幅に下がった
 画像数を増やせば更なる精度向上が期待できる
属性を持つ画像数による属性の精度の変化

27
まとめ
• Swin Transformerを用いたバス乗客の属性推定アルゴリズムを提案
し，その検証を行った
• 検証のために実際に運行する路線バスの乗降口にカメラを
設置して撮影およびアノテーションを行いデータセットを
作成した
• 同一人物の複数画像で属性推定器の精度の向上が確認でき、
性別、0-5、6-19、70~の属性において十分な精度を達成した
• 属性推定器の誤検知を考察し、特に明るさ、モザイク処理とオク
ルージョンの要因により誤検知しやすいことを確かめた
• 実環境への第一段階として、バス乗客属性推定の実用性を示した

28
研究業績
• 国内学会発表２回
– 鐘支俊, 横山想一郎, 山下倫央, 川村秀憲, 佐藤好美, 長谷川怜, 平澤幸：Swin
Transformer を用いたバス乗客属性の推定, 第21回複雑系マイクロシンポジウム, 9,
オンライン(2022)
– Zhijun Zhong, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura,
Yoshimi Sato, Rei Hasegawa, Miyuki Hirasawa : Attribute Estimation of Bus
Passenger Using MPNTrack and Swin Transformer, Workshop of Social System
and Information Technology (WSSIT2023), (2023, 発表予定)
• 国際学会発表1回
– Zhijun Zhong, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Yoshimi
Sato, Rei Hasegawa, Miyuki Hirasawa : Estimation of Bus Passenger Attributes Using
Swin Transformer, The 5th International Conference on Artificial Intelligence and
Pattern Recognition (AIPR), Xiamen, China, September (2022)

深層学習を用いたバス乗客画像の属性推定に関する研究

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 深層学習を用いたバス乗客画像の属性推定に関する研究

Semelhante a 深層学習を用いたバス乗客画像の属性推定に関する研究 (20)

Mais de harmonylab

Mais de harmonylab (18)

Último

Último (8)