SlideShare uma empresa Scribd logo
1 de 74
Deep Neural Networkに基づく
日常生活行動認識における適応手法
林知樹† 北岡教英†† 戸田智基††† 武田一哉†
† 名古屋大学大学院 情報科学研究科
†† 徳島大学 理工学研究部
††† 名古屋大学 情報基盤センター
研究背景 (1)
p 未曾有の高齢化 の到来
n 超高齢社会に既に突入
l 老人(65歳以上)が総人口の21%以上
n 2030年には人口の1/3が高齢者に!
p 超高齢社会に伴う問題 とは?
n 若者の負担の増加
n 一人暮らしの老人の増加
n 介護・医療サービスへの高すぎる需要
22016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
人手による高齢者支援の限界
高齢者生活支援のための
見守りシステムの構築
増え続ける若者の負担
研究背景 (2)
32016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
目標とするシステム
研究背景 (2)
42016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
目標とするシステム
行動認識技術
先行研究 [T. Hayashi et. al., EUSIPCO2015]
マルチモーダル✕DNNによる日常生活行動認識
p 加速度+環境音信号を用いたDNNによる認識モデルを提案
p 被験者1名 実環境収録72時間コーパスを利用
p 9種類の日常生活行動+認識対象外行動を分類
p SVMなどのモデルと性能を比較し,その有効性を確認
52016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
従来モデルとの比較実験結果 DNN隠れ層の出力の可視化分析
先行研究で残された課題
被験者オープン条件での性能評価
p 被験者1名のデータを利用
p 被験者クローズド条件でのみ性能を評価
n 学習データが十分に確保できる理想的な性能
n 実用上はユーザごとのデータが得られない可能性あり
学習データ量と認識性能の関係
p 収録データを全て利用した場合のみで評価
n 実用的な性能に必要なデータ量に関する知見が欠落
62016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
上記2点について本報告では検討
本研究の貢献
1. 大規模生活行動データベースの構築
p 新たに被験者18名分の生活行動を収録
p 被験者18名 250時間分の生活行動コーパスを構築
2. 被験者オープン条件での性能を評価
p 上記コーパスを利用
p システムの実用上の性能を評価
3. DNN適応手法を生活行動認識に適用
p 音声認識で広く用いられている適応手法に注目
p 少数のデータのみで性能を改善
72016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
目次
1. 研究背景及び目標
2. データベースの構築
3. 提案手法
4. 評価実験
A) 被験者クローズ実験
B) 被験者オープン実験
C) 適応実験
5. まとめと今後の課題
82016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
データベースの構築
92016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
データベースの構築 (1)
生活行動データベースの構築
p 独居環境を想定した1DKワンルームマンション
p 環境音・加速度・映像を以下の装備にて収録
n 映像は信号への行動タグ付けのみに利用
p 2種類のデータセットを構築
1. 長時間に渡り1名分を収録した個人データセット
2. 短時間だが18名分を収録した複数人データセット
102016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
データベースの構築 (2)
p 収録された室内行動の一覧
112016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
この内収録時間上位 9個の行動を認識対象行動に
残りの行動を一括りにして認識対象外行動に
生活行動認識モデル
122016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
提案手法の流れ
132016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 3つのフェーズで構成
提案手法の流れ
142016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 3つのフェーズで構成
グローバルモデルの構築を行うフェーズ
大量のデータで一つのモデルを作成する
学習フェーズ
提案手法の流れ
152016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 3つのフェーズで構成
学習済みのモデルで認識を行うフェーズ
認識フェーズ
提案手法の流れ
162016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 3つのフェーズで構成
適応
少数のデータでモデルの適応を行うフェーズ
グローバルモデルをユーザにフィットさせる
適応フェーズ
1. 学習フェーズ処理の流れ
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 17
加速度信号
環境音
前処理
平均・分散の計算平均・分散の計算
正規化
特徴量抽出特徴量抽出
モデル学習
正規化
行動ラベル
スプライシングスプライシング
TrainingPhase
2. 認識フェーズ処理の流れ
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 18
加速度信号
環境音
前処理
特徴量抽出特徴量抽出
モデル認識
正規化
学習データの
平均・分散
正規化
認識結果
スプライシングスプライシング
RecognitionPhase
3. 適応フェーズの流れ
192016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
加速度信号
環境音
前処理
特徴量抽出特徴量抽出
モデル適応
正規化
学習データの
平均・分散
行動ラベル
正規化
スプライシングスプライシング
AdaptationPhase
加速度特徴量
n 平均
n 分散
n 周波数領域での
非直流成分のパワー
n エントロピー
n 軸間の相関係数
環境音特徴量
n MFCC 12 次元
+ パワー + Δ + ΔΔ
n Root Mean Square
n Zero Crossing rate
特徴量
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 20
13×3 + 1 + 1
合計	41	次元
5(種類)×3(軸数)
合計	15	次元
p 1 secの分析窓に分割 → 下記の特徴量を抽出
56次元✕前後5フレーム結合 = 616次元特徴量
認識モデル
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 21
p Deep Neural Network による2種類の方式を検討
Posterior level fusion Feature level fusion
認識モデル
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 22
p Deep Neural Network による2種類のモデルを検討
Posterior level fusion Feature level fusion
事前実験により
こちらの方式を採用
モデルの学習
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 23
1. Denoising Auto Encoder [1] によるPre-training
2. Back prop + Dropout [2] + Adam [3] によるFine-tuning
[1] V. Pascal et al., “Extracting and Composing Robust Features with Denoising Autoencoder,” Proc. of ICLR2008.
[2] D. P. Kingma et al., “ADAM: A Method For Stochastic Optimization,” Proc. of ICLR2015.
[3] G. E. Hinton et al., “Improving neural networks by preventing co-adaptation of feature detectors,” CoRR, 2012.
モデルの適応 (1)
三種類の適応手法を検討
1. すべての層のパラメータを再学習
n 最も単純な手法
n グローバルモデルを初期値に設定
n データ量が少ないと過学習に陥りやすい
2. 特定の層を選択しそのパラメータを再学習 [4]
3. 線形変換層を挿入しそのパラメータを学習 [5]
242016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
[5] Ochiai T., et al., “Speaker Adaptive Training for Deep Neural Networks Embedding Linear Transformation Networks,” Proc. ICASSP 2015, pp.4605–4609, 2015.
[4] Ochiai T., et al., “Speaker Adaptive Training Using Deep Neural Networks." Proc. ICASSP 2014, pp. 6349–6353, 2014.
モデルの適応 (2)
p 特定の層を選択しパラメータを再学習 [4]
n 特定の層を被験者依存層として選択
n 被験者が変化する場合は被験者依存層のみを入れ替え
n 少数のパラメータのみを保持すればOK
252016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
[4] Ochiai T., et al., “Speaker Adaptive Training Using Deep Neural Networks." Proc. ICASSP 2014, pp. 6349–6353, 2014.
モデルの適応 (3)
p 線形変換層を挿入しそのパラメータを学習 [5]
n 被験者依存性を正規化するような線形変換を学習
n 被験者が変化する場合は線形変換のみを入れ替える
n 線形変換のパラメータのみを保持すれば良い
262016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
構築済み
グローバルモデル
線形変換
ネットワークを挿入
[5] Ochiai T., et al., “Speaker Adaptive Training for Deep Neural Networks Embedding Linear Transformation Networks,” Proc. ICASSP 2015, pp.4605–4609, 2015.
評価実験
272016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
被験者オープン実験
p 被験者オープン実験とは
n 学習データとテストデータが異なる被験者
n システムの実用上で重要な指標となる
p 複数人データセットを利用
n 被験者 18名 250時間分のデータ
p Leave-one-subject-out 検証による評価
n 認識対象行動 9種類を分類対象に
n F値を評価指標に
282016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
実験結果 被験者別クラス平均
292016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
クローズド条件(90%↑)に比べて
非常に低い性能
実験結果 混同行列
302016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 69.2 28.4 0.9 0.1 0.0 0.0 0.6 0.7 0.0 41.9
料理 31.3 64.0 0.5 0.5 0.2 0.8 0.2 2.2 0.3 74.6
食事 1.0 6.1 55.9 12.6 1.2 3.1 4.2 3.2 12.8 44.3
PC 0.3 1.7 10.7 22.2 15.4 16.4 5.6 3.2 24.5 40.7
読書 0.4 1.9 9.0 13.9 6.7 19.1 8.0 21.8 19.1 3.9
睡眠 0.0 0.0 0.2 8.1 7.3 66.8 7.9 4.8 4.9 64.9
スマホ 1.0 1.5 8.2 10.5 3.9 17.8 16.7 4.7 35.7 32.6
トイレ 10.3 15.5 1.3 2.6 3.9 8.7 0.3 54.8 2.6 24.4
TV 0.5 1.2 9.1 5.6 7.3 5.8 13.2 2.8 54.4 38.8
F. [%] 52.2 68.9 49.5 28.8 4.9 65.8 22.1 33.7 45.3 41.2
PC・読書・スマホが圧倒的に認識性能が低い
実験結果 考察
性能低下の原因
1. 被験者ごとに行動の取り方が大きく変動
n 学習データとテストデータの間の乖離を引き起こす
→ 大量の学習データを集めることでパターンを網羅
2. 特徴的な信号が発生しにくい行動を混合
n 特徴量に行動特有のものが現れない
→ IoT製品との連携でよりたくさんの情報を取得
3. スマートフォンの装着向きの違い
n スマホの位置は固定されているが,向きは異なる
→ 装着方向の依存性を取り除く前処理の検討
312016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
適応による性能向上を図る
被験者適応実験
4つのモデルを比較
1. ランダムに初期化して構築したモデル
2. 全層を再学習したモデル
3. 特定の層のみを再学習したモデル
4. 線形変換層を挿入して学習したモデル
実験手順
1. グローバルモデルを構築
2. 各クラスからランダムに適応サンプルをN個選択
3. 適応用のサンプルを用いて適応学習
4. 適応されたモデルをテスト
5. 適応サンプル数をN = N + 1として手順2へ
322016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
実験結果 適応手法間の比較
332016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
0からモデルを組むよりも高い性能
実験結果 適応手法間の比較
342016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
適応手法の有効性を確認
実験結果 適応手法間の比較
352016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
特定の層のみ学習はサチる傾向アリ
実験結果 適応手法間の比較
362016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
適応データが十分に確保できる場合は
全層再学習が有効
実験結果 クラス別の遷移
372016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
0からモデルを構築した場合 線形変換挿入学習を用いた場合
線形変換挿入学習を用いた場合
実験結果 クラス別の遷移
382016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
0からモデルを構築した場合
緩やかにそれぞれの
クラスの認識率が向上
実験結果 クラス別の遷移
392016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
0からモデルを構築した場合
少数のデータでの
適応の有効性を確認
5~10サンプルの利用で
急激に性能が向上
線形変換挿入学習を用いた場合
まとめ
p マルチモーダル信号を用いた深層学習に基づく
行動認識モデルとその適応手法について検討
n 環境音信号 ✕ 加速度信号 ✕ 深層学習
p 日常生活行動データベースの構築
n 被験者19名 約300時間の生活行動を収録
p 被験者オープン実験で実用上の性能を評価
n クローズ評価に比べて大幅な性能の低下
p 適応実験で性能向上の具合を観察
n 適応により少数のサンプルで性能向上の可能性を示唆
n 適応に用いるサンプル数によって適応手法間に差が存在
402016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
予備スライド
p 見守りシステムの存在意義について
p 学習の詳細について
p 事前処理について
p 実験手順詳細
p 実験条件詳細
p 各実験の混同行列
p その他
412016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
前処理
422016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
突発的なノイズ サンプリング欠落
p 収録された加速度信号の不備を除去
前処理
432016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
メディアンフィルタの
適用
スプライン補間に
よる補完
p 収録された加速度信号の不備を除去
2. DAEによるPre-training
442016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
下のようなネットワークを学習したい
下から順番に学習していく
入力
出力
2. DAEによるPre-training
452016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
入力特徴量
ガウスノイズ付与
イマココ!
入力特徴量
Auto Encoder
として学習
入力
出力
2. DAEによるPre-training
462016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
イマココ!
学習が終わったら
最終層を除去
入力
出力
入力特徴量
ガウスノイズ付与
2. DAEによるPre-training
472016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
入力特徴量
ガウスノイズ付与 学習されたパラメータを
下の部分の初期値に!
ココ終わり!
入力
出力
2. DAEによるPre-training
482016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
入力特徴量
ガウスノイズ付与
イマココ!
入力
出力
二層目出力
学習したNNもどきから
二層目の出力を得る
2. DAEによるPre-training
492016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
ガウスノイズ付与
イマココ!
入力
出力
二層目出力
Auto Encoder
として学習
二層目出力
2. DAEによるPre-training
502016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
ガウスノイズ付与
イマココ!
入力
出力
二層目出力
学習が終わったら
最終層を除去
2. DAEによるPre-training
512016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
ガウスノイズ付与
入力
出力
二層目出力
学習されたパラメータを
下の部分の初期値に!
ココ終わり!
2. DAEによるPre-training
522016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
ガウスノイズ付与
イマココ!
入力
出力
二層目出力
三層目出力
学習したNNもどきから
三層目の出力を得る
以下同様に繰り返し!
見守りシステムの存在意義
532016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
高齢者が活き活きと自活することを促す
見守りシステムの役割
行動認識技術
経験・活動の把握の必要性
経験・活動・能力のサイクル
被験者クローズ実験
p ホールドアウト検証による実験の流れ
1. 各クラスからテストデータをランダム10個選択
2. 残りのデータを学習データとしてモデルを学習
3. 学習されたモデルを用いてテストデータを評価
4. 1~3の手順を10回リピート
542016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
クラス1 ・・・クラス3 クラス𝑲クラス2
テストデータ
ランダムにテスト用サンプルを抽出
被験者クローズ実験
p ホールドアウト検証による実験の流れ
1. 各クラスからテストデータをランダム10個選択
2. 残りのデータを学習データとしてモデルを学習
3. 学習されたモデルを用いてテストデータを評価
4. 1~3の手順を10回リピート
552016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
クラス1 ・・・クラス3 クラス𝑲クラス2
テストデータ
残りを学習データに!
被験者クローズ実験条件
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
被験者数 18 名
環境音 標本化周波数 16,000 Hz
加速度 標本周波数
256 Hz
(スプライン補間)
DNN隠れ層 2048 × 3
活性化関数 Sigmoid
Pre-training DAEによる貪欲学習
エポック数
50 (Pre-training時)
200 (Fine-tuning時)
Droprate
0.2 (入力層)
0.5 (中間層)
学習率 5e-4
バッチサイズ 256
L2正則化係数 1e-6
学習率制御 ADAM
検証方法 ホールドアウト検証
DNN Toolkit Torch 7
56
比較実験条件
572016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
KNN 距離 ユークリッド距離
KNN 近傍数 5
GMM 混合数 10
SVM カーネル関数 RBFカーネル
SVM 方式 One-Versus-One
SVM Toolkit libSVM-3.18
被験者オープン実験条件
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 58
被験者数 18 名
環境音 標本化周波数 16,000 Hz
加速度 標本周波数
256 Hz
(スプライン補間)
DNN隠れ層 2048 × 3
活性化関数 Sigmoid
Pre-training DAEによる貪欲学習
エポック数
50 (Pre-training時)
200 (Fine-tuning時)
Droprate
0.2 (入力層)
0.5 (中間層)
学習率 5e-4
バッチサイズ 256
L2正則化係数 1e-6
学習率制御 ADAM
検証方法 ホールドアウト検証
DNN Toolkit Torch 7
加速度のみの混同行列
592016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 99.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 43.6
料理 65.0 34.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 91.9
食事 13.0 1.0 85.0 0.0 0.0 0.0 1.0 0.0 0.0 50.9
PC 1.0 1.0 3.0 94.0 0.0 0.0 1.0 0.0 0.0 68.6
読書 5.0 0.0 22.0 14.0 25.0 6.0 8.0 0.0 20.0 92.6
睡眠 0.0 0.0 0.0 0.0 1.0 99.0 0.0 0.0 0.0 90.8
スマホ 6.0 0.0 16.0 10.0 1.0 1.0 55.0 0.0 11.0 75.3
トイレ 30.0 0.0 9.0 11.0 0.0 3.0 1.0 43.0 3.0 100.0
TV 8.0 1.0 30.0 8.0 0.0 0.0 7.0 0.0 46.0 57.5
F. [%] 60.6 49.6 63.7 79.3 39.4 94.7 63.6 60.1 51.1 62.5
音響のみの混同行列
602016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 88.0 1.0 11.0 0.0 0.0 0.0 0.0 0.0 0.0 80.7
料理 5.0 87.0 6.0 2.0 0.0 0.0 0.0 0.0 0.0 88.8
食事 9.0 1.0 90.0 0.0 0.0 0.0 0.0 0.0 0.0 61.2
PC 0.0 0.0 1.0 97.0 0.0 0.0 0.0 0.0 2.0 95.1
読書 0.0 1.0 3.0 0.0 63.0 11.0 9.0 0.0 13.0 88.7
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 84.7
スマホ 0.0 3.0 12.0 3.0 8.0 6.0 57.0 2.0 9.0 79.2
トイレ 5.0 5.0 7.0 0.0 0.0 1.0 3.0 79.0 0.0 97.5
TV 2.0 0.0 17.0 0.0 0.0 0.0 3.0 0.0 78.0 76.5
F. [%] 84.2 87.9 72.9 96.0 73.7 91.7 66.3 87.3 77.2 81.9
アンサンブルモデルの混同行列
612016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 82.0
料理 8.0 88.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 93.6
食事 6.0 1.0 93.0 0.0 0.0 0.0 0.0 0.0 0.0 71.5
PC 0.0 1.0 0.0 97.0 0.0 0.0 0.0 0.0 2.0 95.1
読書 0.0 0.0 2.0 3.0 61.0 10.0 10.0 0.0 14.0 95.3
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 87.0
スマホ 0.0 1.0 13.0 1.0 3.0 4.0 69.0 1.0 8.0 83.1
トイレ 6.0 3.0 8.0 0.0 0.0 1.0 1.0 81.0 0.0 98.8
TV 2.0 0.0 10.0 1.0 0.0 0.0 3.0 0.0 84.0 77.8
F. [%] 90.1 90.7 80.9 96.0 74.4 93.0 75.4 89.0 80.8 85.6
統合モデルの混同行列
622016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 98.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 93.3
料理 2.0 97.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 91.5
食事 2.0 7.0 89.0 0.0 0.0 0.0 2.0 0.0 0.0 89.9
PC 0.0 1.0 0.0 95.0 2.0 1.0 1.0 0.0 0.0 97.9
読書 0.0 0.0 0.0 0.0 93.0 3.0 2.0 0.0 2.0 90.3
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 96.2
スマホ 0.0 0.0 3.0 2.0 6.0 0.0 79.0 1.0 9.0 80.6
トイレ 1.0 0.0 2.0 0.0 1.0 0.0 3.0 92.0 1.0 98.9
TV 2.0 0.0 3.0 0.0 1.0 0.0 11.0 0.0 83.0 87.4
F. [%] 95.6 94.2 89.4 96.4 91.6 98.0 79.8 95.3 85.1 91.7
統合モデルの混同行列 (その他あり)
632016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV その他 Pr. [%]
Predictionlabel
片付け 81.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 17.0 97.6
料理 2.0 88.0 0.0 3.0 0.0 0.0 0.0 0.0 0.0 7.0 95.7
食事 0.0 2.0 92.0 0.0 0.0 0.0 0.0 0.0 0.0 6.0 97.9
PC 0.0 0.0 0.0 95.0 1.0 1.0 1.0 0.0 0.0 2.0 94.1
読書 0.0 0.0 0.0 0.0 90.0 7.0 1.0 0.0 1.0 1.0 88.2
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 92.6
スマホ 0.0 0.0 0.0 3.0 5.0 0.0 87.0 0.0 1.0 4.0 93.5
トイレ 0.0 0.0 0.0 0.0 0.0 0.0 2.0 81.0 1.0 16.0 98.8
TV 0.0 0.0 2.0 0.0 6.0 0.0 2.0 1.0 73.0 16.0 96.1
その他 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 59.2
F. [%] 88.5 91.7 94.8 94.5 89.1 96.2 90.2 89.0 83.0 74.3 89.1
SVMの混同行列 (その他あり)
642016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV その他 Pr. [%]
Predictionlabel
片付け 26.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 73.0 100.0
料理 0.0 65.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 35.0 95.6
食事 0.0 2.0 83.0 0.0 0.0 0.0 1.0 0.0 0.0 14.0 96.5
PC 0.0 0.0 0.0 95.0 0.0 0.0 1.0 0.0 0.0 4.0 99.0
読書 0.0 0.0 0.0 0.0 87.0 7.0 2.0 0.0 1.0 3.0 90.6
睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 92.6
スマホ 0.0 0.0 2.0 1.0 3.0 0.0 80.0 0.0 3.0 11.0 87.9
トイレ 0.0 0.0 0.0 0.0 0.0 1.0 2.0 64.0 1.0 32.0 100.0
TV 0.0 0.0 1.0 0.0 6.0 0.0 4.0 0.0 71.0 18.0 93.4
その他 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 99.0 34.3
F. [%] 41.3 77.4 89.2 96.9 88.8 96.2 83.8 78.0 80.7 50.9 78.3
オープン結果の混同行列
652016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
Answer label
片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%]
Predictionlabel
片付け 69.2 28.4 0.9 0.1 0.0 0.0 0.6 0.7 0.0 41.9
料理 31.3 64.0 0.5 0.5 0.2 0.8 0.2 2.2 0.3 74.6
食事 1.0 6.1 55.9 12.6 1.2 3.1 4.2 3.2 12.8 44.3
PC 0.3 1.7 10.7 22.2 15.4 16.4 5.6 3.2 24.5 40.7
読書 0.4 1.9 9.0 13.9 6.7 19.1 8.0 21.8 19.1 3.9
睡眠 0.0 0.0 0.2 8.1 7.3 66.8 7.9 4.8 4.9 64.9
スマホ 1.0 1.5 8.2 10.5 3.9 17.8 16.7 4.7 35.7 32.6
トイレ 10.3 15.5 1.3 2.6 3.9 8.7 0.3 54.8 2.6 24.4
TV 0.5 1.2 9.1 5.6 7.3 5.8 13.2 2.8 54.4 38.8
F. [%] 52.2 68.9 49.5 28.8 4.9 65.8 22.1 33.7 45.3 41.2
行動認識に関する先行研究
p 日常生活行動に関する音響イベント検出
n HMMを用いた健康管理に関する音響イベント検出 [ Peng et al., 2009 ]
n 確率的生成モデルに基づく音響イベント系列推定 [ Imoto et al., 2013 ]
p 加速度信号を用いた行動認識
n 携帯端末の加速度センサを用いた歩行などの単純な行動認識 [ Ouchi et al., 2012 ]
n 加速度センサを用いた単純な行動認識 [ Kwaipisz et al, 2010 ]
p マルチモーダル信号を用いた行動認識
n スマートフォンで収録された加速度と環境音による段階的な生活行動認識 [ Ouchi et al, 2014 ]
n 腕時計型複数センサデバイスを用いた日常生活行動認識 [T. Maekawa et al., 2013]
662016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
2. 高次の生活行動が不十分な認識率であること
3. 個人ごとにモデルを構築する必要があること
先行研究の3つの問題点
1. 模擬的に収録された限定的な行動が対象であること
全パラメータ再学習
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 単純に全パラメータを再学習
67
一層のみを適応 (w/ dropout)
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 適応する層を変化させた場合の性能の変化
68
一層のみを適応 (w/o dropout)
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 適応する層を変化させた場合の性能の変化
69
線形変換ネットワーク挿入
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 挿入する層を変化させた場合の性能の変化
70
SATの有無
p 線形変換を2層目に挿入した場合で比較
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 71
それぞれの適応手法の比較
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p それぞれの結果で最も良かったモノ同士を比較
72
SDモデルとの比較
2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
p 最も良かったモノとSDモデルを比較
73
適応手法間の比較
742016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」

Mais conteúdo relacionado

Mais procurados

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIPDeep Learning JP
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展Shinnosuke Takamichi
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法Daichi Kitamura
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Keisuke Imoto
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2Jiro Nishitoba
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)Daichi Kitamura
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出Tomoki Hayashi
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析Kitamura Laboratory
 

Mais procurados (20)

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
非負値行列因子分解に基づくブラインド及び教師あり音楽音源分離の効果的最適化法
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
ICASSP2017読み会(関東編)・AASP_L3(北村担当分)
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 

Semelhante a Deep Neural Networkに基づく日常生活行動認識における適応手法

DSF2018講演スライド
DSF2018講演スライドDSF2018講演スライド
DSF2018講演スライドHiroki Nakahara
 
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learnedsugiuralab
 
【国立大学法人電気通信大学】平成18年環境報告書
【国立大学法人電気通信大学】平成18年環境報告書【国立大学法人電気通信大学】平成18年環境報告書
【国立大学法人電気通信大学】平成18年環境報告書env56
 
探求の道 Lead Clearly
探求の道 Lead Clearly探求の道 Lead Clearly
探求の道 Lead ClearlyYutaka KATAYAMA
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会nlab_utokyo
 
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous ComputingYusuke Iwasawa
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...Kengo Sato
 
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案Yuta Takahashi
 
細胞画像認識を利用した薬効分析支援
細胞画像認識を利用した薬効分析支援細胞画像認識を利用した薬効分析支援
細胞画像認識を利用した薬効分析支援Makoto Ishibashi
 
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法Eli Kaminuma
 
JPA2023_NetworkTutorial_Part4.pdf
JPA2023_NetworkTutorial_Part4.pdfJPA2023_NetworkTutorial_Part4.pdf
JPA2023_NetworkTutorial_Part4.pdfJun Kashihara
 
JSSST 2014 発表資料
JSSST 2014 発表資料JSSST 2014 発表資料
JSSST 2014 発表資料kata shin
 
Gisa学術研究発表web大会 hamada 1119
Gisa学術研究発表web大会 hamada 1119Gisa学術研究発表web大会 hamada 1119
Gisa学術研究発表web大会 hamada 1119tokihiko6343
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...harmonylab
 

Semelhante a Deep Neural Networkに基づく日常生活行動認識における適応手法 (20)

20150414seminar
20150414seminar20150414seminar
20150414seminar
 
DSF2018講演スライド
DSF2018講演スライドDSF2018講演スライド
DSF2018講演スライド
 
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
生活に溶け込む人工知能による病気発見:医工連携におけるLessons Learned
 
【国立大学法人電気通信大学】平成18年環境報告書
【国立大学法人電気通信大学】平成18年環境報告書【国立大学法人電気通信大学】平成18年環境報告書
【国立大学法人電気通信大学】平成18年環境報告書
 
探求の道 Lead Clearly
探求の道 Lead Clearly探求の道 Lead Clearly
探求の道 Lead Clearly
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会
 
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
研究室輪読 Feature Learning for Activity Recognition in Ubiquitous Computing
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...
 
Ieice society
Ieice societyIeice society
Ieice society
 
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
超音波センサーを用いた4点杖の使用者のコンテキスト推定法の提案
 
細胞画像認識を利用した薬効分析支援
細胞画像認識を利用した薬効分析支援細胞画像認識を利用した薬効分析支援
細胞画像認識を利用した薬効分析支援
 
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
 
20150930
2015093020150930
20150930
 
JPA2023_NetworkTutorial_Part4.pdf
JPA2023_NetworkTutorial_Part4.pdfJPA2023_NetworkTutorial_Part4.pdf
JPA2023_NetworkTutorial_Part4.pdf
 
JSSST 2014 発表資料
JSSST 2014 発表資料JSSST 2014 発表資料
JSSST 2014 発表資料
 
Gisa学術研究発表web大会 hamada 1119
Gisa学術研究発表web大会 hamada 1119Gisa学術研究発表web大会 hamada 1119
Gisa学術研究発表web大会 hamada 1119
 
cnnstudy
cnnstudycnnstudy
cnnstudy
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
 
Ibis2016okanohara
Ibis2016okanoharaIbis2016okanohara
Ibis2016okanohara
 

Mais de NU_I_TODALAB

The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022NU_I_TODALAB
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワークNU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調NU_I_TODALAB
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離NU_I_TODALAB
 

Mais de NU_I_TODALAB (15)

The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 

Deep Neural Networkに基づく日常生活行動認識における適応手法

  • 1. Deep Neural Networkに基づく 日常生活行動認識における適応手法 林知樹† 北岡教英†† 戸田智基††† 武田一哉† † 名古屋大学大学院 情報科学研究科 †† 徳島大学 理工学研究部 ††† 名古屋大学 情報基盤センター
  • 2. 研究背景 (1) p 未曾有の高齢化 の到来 n 超高齢社会に既に突入 l 老人(65歳以上)が総人口の21%以上 n 2030年には人口の1/3が高齢者に! p 超高齢社会に伴う問題 とは? n 若者の負担の増加 n 一人暮らしの老人の増加 n 介護・医療サービスへの高すぎる需要 22016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 人手による高齢者支援の限界 高齢者生活支援のための 見守りシステムの構築 増え続ける若者の負担
  • 3. 研究背景 (2) 32016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 目標とするシステム
  • 4. 研究背景 (2) 42016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 目標とするシステム 行動認識技術
  • 5. 先行研究 [T. Hayashi et. al., EUSIPCO2015] マルチモーダル✕DNNによる日常生活行動認識 p 加速度+環境音信号を用いたDNNによる認識モデルを提案 p 被験者1名 実環境収録72時間コーパスを利用 p 9種類の日常生活行動+認識対象外行動を分類 p SVMなどのモデルと性能を比較し,その有効性を確認 52016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 従来モデルとの比較実験結果 DNN隠れ層の出力の可視化分析
  • 6. 先行研究で残された課題 被験者オープン条件での性能評価 p 被験者1名のデータを利用 p 被験者クローズド条件でのみ性能を評価 n 学習データが十分に確保できる理想的な性能 n 実用上はユーザごとのデータが得られない可能性あり 学習データ量と認識性能の関係 p 収録データを全て利用した場合のみで評価 n 実用的な性能に必要なデータ量に関する知見が欠落 62016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 上記2点について本報告では検討
  • 7. 本研究の貢献 1. 大規模生活行動データベースの構築 p 新たに被験者18名分の生活行動を収録 p 被験者18名 250時間分の生活行動コーパスを構築 2. 被験者オープン条件での性能を評価 p 上記コーパスを利用 p システムの実用上の性能を評価 3. DNN適応手法を生活行動認識に適用 p 音声認識で広く用いられている適応手法に注目 p 少数のデータのみで性能を改善 72016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 8. 目次 1. 研究背景及び目標 2. データベースの構築 3. 提案手法 4. 評価実験 A) 被験者クローズ実験 B) 被験者オープン実験 C) 適応実験 5. まとめと今後の課題 82016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 9. データベースの構築 92016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 10. データベースの構築 (1) 生活行動データベースの構築 p 独居環境を想定した1DKワンルームマンション p 環境音・加速度・映像を以下の装備にて収録 n 映像は信号への行動タグ付けのみに利用 p 2種類のデータセットを構築 1. 長時間に渡り1名分を収録した個人データセット 2. 短時間だが18名分を収録した複数人データセット 102016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 11. データベースの構築 (2) p 収録された室内行動の一覧 112016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 この内収録時間上位 9個の行動を認識対象行動に 残りの行動を一括りにして認識対象外行動に
  • 12. 生活行動認識モデル 122016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 13. 提案手法の流れ 132016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 3つのフェーズで構成
  • 14. 提案手法の流れ 142016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 3つのフェーズで構成 グローバルモデルの構築を行うフェーズ 大量のデータで一つのモデルを作成する 学習フェーズ
  • 15. 提案手法の流れ 152016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 3つのフェーズで構成 学習済みのモデルで認識を行うフェーズ 認識フェーズ
  • 16. 提案手法の流れ 162016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 3つのフェーズで構成 適応 少数のデータでモデルの適応を行うフェーズ グローバルモデルをユーザにフィットさせる 適応フェーズ
  • 17. 1. 学習フェーズ処理の流れ 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 17 加速度信号 環境音 前処理 平均・分散の計算平均・分散の計算 正規化 特徴量抽出特徴量抽出 モデル学習 正規化 行動ラベル スプライシングスプライシング TrainingPhase
  • 18. 2. 認識フェーズ処理の流れ 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 18 加速度信号 環境音 前処理 特徴量抽出特徴量抽出 モデル認識 正規化 学習データの 平均・分散 正規化 認識結果 スプライシングスプライシング RecognitionPhase
  • 19. 3. 適応フェーズの流れ 192016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 加速度信号 環境音 前処理 特徴量抽出特徴量抽出 モデル適応 正規化 学習データの 平均・分散 行動ラベル 正規化 スプライシングスプライシング AdaptationPhase
  • 20. 加速度特徴量 n 平均 n 分散 n 周波数領域での 非直流成分のパワー n エントロピー n 軸間の相関係数 環境音特徴量 n MFCC 12 次元 + パワー + Δ + ΔΔ n Root Mean Square n Zero Crossing rate 特徴量 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 20 13×3 + 1 + 1 合計 41 次元 5(種類)×3(軸数) 合計 15 次元 p 1 secの分析窓に分割 → 下記の特徴量を抽出 56次元✕前後5フレーム結合 = 616次元特徴量
  • 21. 認識モデル 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 21 p Deep Neural Network による2種類の方式を検討 Posterior level fusion Feature level fusion
  • 22. 認識モデル 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 22 p Deep Neural Network による2種類のモデルを検討 Posterior level fusion Feature level fusion 事前実験により こちらの方式を採用
  • 23. モデルの学習 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 23 1. Denoising Auto Encoder [1] によるPre-training 2. Back prop + Dropout [2] + Adam [3] によるFine-tuning [1] V. Pascal et al., “Extracting and Composing Robust Features with Denoising Autoencoder,” Proc. of ICLR2008. [2] D. P. Kingma et al., “ADAM: A Method For Stochastic Optimization,” Proc. of ICLR2015. [3] G. E. Hinton et al., “Improving neural networks by preventing co-adaptation of feature detectors,” CoRR, 2012.
  • 24. モデルの適応 (1) 三種類の適応手法を検討 1. すべての層のパラメータを再学習 n 最も単純な手法 n グローバルモデルを初期値に設定 n データ量が少ないと過学習に陥りやすい 2. 特定の層を選択しそのパラメータを再学習 [4] 3. 線形変換層を挿入しそのパラメータを学習 [5] 242016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 [5] Ochiai T., et al., “Speaker Adaptive Training for Deep Neural Networks Embedding Linear Transformation Networks,” Proc. ICASSP 2015, pp.4605–4609, 2015. [4] Ochiai T., et al., “Speaker Adaptive Training Using Deep Neural Networks." Proc. ICASSP 2014, pp. 6349–6353, 2014.
  • 25. モデルの適応 (2) p 特定の層を選択しパラメータを再学習 [4] n 特定の層を被験者依存層として選択 n 被験者が変化する場合は被験者依存層のみを入れ替え n 少数のパラメータのみを保持すればOK 252016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 [4] Ochiai T., et al., “Speaker Adaptive Training Using Deep Neural Networks." Proc. ICASSP 2014, pp. 6349–6353, 2014.
  • 26. モデルの適応 (3) p 線形変換層を挿入しそのパラメータを学習 [5] n 被験者依存性を正規化するような線形変換を学習 n 被験者が変化する場合は線形変換のみを入れ替える n 線形変換のパラメータのみを保持すれば良い 262016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 構築済み グローバルモデル 線形変換 ネットワークを挿入 [5] Ochiai T., et al., “Speaker Adaptive Training for Deep Neural Networks Embedding Linear Transformation Networks,” Proc. ICASSP 2015, pp.4605–4609, 2015.
  • 27. 評価実験 272016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 28. 被験者オープン実験 p 被験者オープン実験とは n 学習データとテストデータが異なる被験者 n システムの実用上で重要な指標となる p 複数人データセットを利用 n 被験者 18名 250時間分のデータ p Leave-one-subject-out 検証による評価 n 認識対象行動 9種類を分類対象に n F値を評価指標に 282016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 29. 実験結果 被験者別クラス平均 292016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 クローズド条件(90%↑)に比べて 非常に低い性能
  • 30. 実験結果 混同行列 302016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 69.2 28.4 0.9 0.1 0.0 0.0 0.6 0.7 0.0 41.9 料理 31.3 64.0 0.5 0.5 0.2 0.8 0.2 2.2 0.3 74.6 食事 1.0 6.1 55.9 12.6 1.2 3.1 4.2 3.2 12.8 44.3 PC 0.3 1.7 10.7 22.2 15.4 16.4 5.6 3.2 24.5 40.7 読書 0.4 1.9 9.0 13.9 6.7 19.1 8.0 21.8 19.1 3.9 睡眠 0.0 0.0 0.2 8.1 7.3 66.8 7.9 4.8 4.9 64.9 スマホ 1.0 1.5 8.2 10.5 3.9 17.8 16.7 4.7 35.7 32.6 トイレ 10.3 15.5 1.3 2.6 3.9 8.7 0.3 54.8 2.6 24.4 TV 0.5 1.2 9.1 5.6 7.3 5.8 13.2 2.8 54.4 38.8 F. [%] 52.2 68.9 49.5 28.8 4.9 65.8 22.1 33.7 45.3 41.2 PC・読書・スマホが圧倒的に認識性能が低い
  • 31. 実験結果 考察 性能低下の原因 1. 被験者ごとに行動の取り方が大きく変動 n 学習データとテストデータの間の乖離を引き起こす → 大量の学習データを集めることでパターンを網羅 2. 特徴的な信号が発生しにくい行動を混合 n 特徴量に行動特有のものが現れない → IoT製品との連携でよりたくさんの情報を取得 3. スマートフォンの装着向きの違い n スマホの位置は固定されているが,向きは異なる → 装着方向の依存性を取り除く前処理の検討 312016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 適応による性能向上を図る
  • 32. 被験者適応実験 4つのモデルを比較 1. ランダムに初期化して構築したモデル 2. 全層を再学習したモデル 3. 特定の層のみを再学習したモデル 4. 線形変換層を挿入して学習したモデル 実験手順 1. グローバルモデルを構築 2. 各クラスからランダムに適応サンプルをN個選択 3. 適応用のサンプルを用いて適応学習 4. 適応されたモデルをテスト 5. 適応サンプル数をN = N + 1として手順2へ 322016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 33. 実験結果 適応手法間の比較 332016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 0からモデルを組むよりも高い性能
  • 34. 実験結果 適応手法間の比較 342016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 適応手法の有効性を確認
  • 35. 実験結果 適応手法間の比較 352016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 特定の層のみ学習はサチる傾向アリ
  • 36. 実験結果 適応手法間の比較 362016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 適応データが十分に確保できる場合は 全層再学習が有効
  • 37. 実験結果 クラス別の遷移 372016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 0からモデルを構築した場合 線形変換挿入学習を用いた場合
  • 38. 線形変換挿入学習を用いた場合 実験結果 クラス別の遷移 382016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 0からモデルを構築した場合 緩やかにそれぞれの クラスの認識率が向上
  • 39. 実験結果 クラス別の遷移 392016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 0からモデルを構築した場合 少数のデータでの 適応の有効性を確認 5~10サンプルの利用で 急激に性能が向上 線形変換挿入学習を用いた場合
  • 40. まとめ p マルチモーダル信号を用いた深層学習に基づく 行動認識モデルとその適応手法について検討 n 環境音信号 ✕ 加速度信号 ✕ 深層学習 p 日常生活行動データベースの構築 n 被験者19名 約300時間の生活行動を収録 p 被験者オープン実験で実用上の性能を評価 n クローズ評価に比べて大幅な性能の低下 p 適応実験で性能向上の具合を観察 n 適応により少数のサンプルで性能向上の可能性を示唆 n 適応に用いるサンプル数によって適応手法間に差が存在 402016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 41. 予備スライド p 見守りシステムの存在意義について p 学習の詳細について p 事前処理について p 実験手順詳細 p 実験条件詳細 p 各実験の混同行列 p その他 412016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」
  • 42. 前処理 422016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 突発的なノイズ サンプリング欠落 p 収録された加速度信号の不備を除去
  • 43. 前処理 432016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 メディアンフィルタの 適用 スプライン補間に よる補完 p 収録された加速度信号の不備を除去
  • 44. 2. DAEによるPre-training 442016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 下のようなネットワークを学習したい 下から順番に学習していく 入力 出力
  • 45. 2. DAEによるPre-training 452016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 入力特徴量 ガウスノイズ付与 イマココ! 入力特徴量 Auto Encoder として学習 入力 出力
  • 46. 2. DAEによるPre-training 462016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 イマココ! 学習が終わったら 最終層を除去 入力 出力 入力特徴量 ガウスノイズ付与
  • 47. 2. DAEによるPre-training 472016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 入力特徴量 ガウスノイズ付与 学習されたパラメータを 下の部分の初期値に! ココ終わり! 入力 出力
  • 48. 2. DAEによるPre-training 482016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 入力特徴量 ガウスノイズ付与 イマココ! 入力 出力 二層目出力 学習したNNもどきから 二層目の出力を得る
  • 49. 2. DAEによるPre-training 492016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 ガウスノイズ付与 イマココ! 入力 出力 二層目出力 Auto Encoder として学習 二層目出力
  • 50. 2. DAEによるPre-training 502016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 ガウスノイズ付与 イマココ! 入力 出力 二層目出力 学習が終わったら 最終層を除去
  • 51. 2. DAEによるPre-training 512016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 ガウスノイズ付与 入力 出力 二層目出力 学習されたパラメータを 下の部分の初期値に! ココ終わり!
  • 52. 2. DAEによるPre-training 522016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 ガウスノイズ付与 イマココ! 入力 出力 二層目出力 三層目出力 学習したNNもどきから 三層目の出力を得る 以下同様に繰り返し!
  • 53. 見守りシステムの存在意義 532016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 高齢者が活き活きと自活することを促す 見守りシステムの役割 行動認識技術 経験・活動の把握の必要性 経験・活動・能力のサイクル
  • 54. 被験者クローズ実験 p ホールドアウト検証による実験の流れ 1. 各クラスからテストデータをランダム10個選択 2. 残りのデータを学習データとしてモデルを学習 3. 学習されたモデルを用いてテストデータを評価 4. 1~3の手順を10回リピート 542016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 クラス1 ・・・クラス3 クラス𝑲クラス2 テストデータ ランダムにテスト用サンプルを抽出
  • 55. 被験者クローズ実験 p ホールドアウト検証による実験の流れ 1. 各クラスからテストデータをランダム10個選択 2. 残りのデータを学習データとしてモデルを学習 3. 学習されたモデルを用いてテストデータを評価 4. 1~3の手順を10回リピート 552016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 クラス1 ・・・クラス3 クラス𝑲クラス2 テストデータ 残りを学習データに!
  • 56. 被験者クローズ実験条件 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 被験者数 18 名 環境音 標本化周波数 16,000 Hz 加速度 標本周波数 256 Hz (スプライン補間) DNN隠れ層 2048 × 3 活性化関数 Sigmoid Pre-training DAEによる貪欲学習 エポック数 50 (Pre-training時) 200 (Fine-tuning時) Droprate 0.2 (入力層) 0.5 (中間層) 学習率 5e-4 バッチサイズ 256 L2正則化係数 1e-6 学習率制御 ADAM 検証方法 ホールドアウト検証 DNN Toolkit Torch 7 56
  • 57. 比較実験条件 572016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 KNN 距離 ユークリッド距離 KNN 近傍数 5 GMM 混合数 10 SVM カーネル関数 RBFカーネル SVM 方式 One-Versus-One SVM Toolkit libSVM-3.18
  • 58. 被験者オープン実験条件 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 58 被験者数 18 名 環境音 標本化周波数 16,000 Hz 加速度 標本周波数 256 Hz (スプライン補間) DNN隠れ層 2048 × 3 活性化関数 Sigmoid Pre-training DAEによる貪欲学習 エポック数 50 (Pre-training時) 200 (Fine-tuning時) Droprate 0.2 (入力層) 0.5 (中間層) 学習率 5e-4 バッチサイズ 256 L2正則化係数 1e-6 学習率制御 ADAM 検証方法 ホールドアウト検証 DNN Toolkit Torch 7
  • 59. 加速度のみの混同行列 592016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 99.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 43.6 料理 65.0 34.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 91.9 食事 13.0 1.0 85.0 0.0 0.0 0.0 1.0 0.0 0.0 50.9 PC 1.0 1.0 3.0 94.0 0.0 0.0 1.0 0.0 0.0 68.6 読書 5.0 0.0 22.0 14.0 25.0 6.0 8.0 0.0 20.0 92.6 睡眠 0.0 0.0 0.0 0.0 1.0 99.0 0.0 0.0 0.0 90.8 スマホ 6.0 0.0 16.0 10.0 1.0 1.0 55.0 0.0 11.0 75.3 トイレ 30.0 0.0 9.0 11.0 0.0 3.0 1.0 43.0 3.0 100.0 TV 8.0 1.0 30.0 8.0 0.0 0.0 7.0 0.0 46.0 57.5 F. [%] 60.6 49.6 63.7 79.3 39.4 94.7 63.6 60.1 51.1 62.5
  • 60. 音響のみの混同行列 602016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 88.0 1.0 11.0 0.0 0.0 0.0 0.0 0.0 0.0 80.7 料理 5.0 87.0 6.0 2.0 0.0 0.0 0.0 0.0 0.0 88.8 食事 9.0 1.0 90.0 0.0 0.0 0.0 0.0 0.0 0.0 61.2 PC 0.0 0.0 1.0 97.0 0.0 0.0 0.0 0.0 2.0 95.1 読書 0.0 1.0 3.0 0.0 63.0 11.0 9.0 0.0 13.0 88.7 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 84.7 スマホ 0.0 3.0 12.0 3.0 8.0 6.0 57.0 2.0 9.0 79.2 トイレ 5.0 5.0 7.0 0.0 0.0 1.0 3.0 79.0 0.0 97.5 TV 2.0 0.0 17.0 0.0 0.0 0.0 3.0 0.0 78.0 76.5 F. [%] 84.2 87.9 72.9 96.0 73.7 91.7 66.3 87.3 77.2 81.9
  • 61. アンサンブルモデルの混同行列 612016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 100.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 82.0 料理 8.0 88.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 93.6 食事 6.0 1.0 93.0 0.0 0.0 0.0 0.0 0.0 0.0 71.5 PC 0.0 1.0 0.0 97.0 0.0 0.0 0.0 0.0 2.0 95.1 読書 0.0 0.0 2.0 3.0 61.0 10.0 10.0 0.0 14.0 95.3 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 87.0 スマホ 0.0 1.0 13.0 1.0 3.0 4.0 69.0 1.0 8.0 83.1 トイレ 6.0 3.0 8.0 0.0 0.0 1.0 1.0 81.0 0.0 98.8 TV 2.0 0.0 10.0 1.0 0.0 0.0 3.0 0.0 84.0 77.8 F. [%] 90.1 90.7 80.9 96.0 74.4 93.0 75.4 89.0 80.8 85.6
  • 62. 統合モデルの混同行列 622016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 98.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 93.3 料理 2.0 97.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 91.5 食事 2.0 7.0 89.0 0.0 0.0 0.0 2.0 0.0 0.0 89.9 PC 0.0 1.0 0.0 95.0 2.0 1.0 1.0 0.0 0.0 97.9 読書 0.0 0.0 0.0 0.0 93.0 3.0 2.0 0.0 2.0 90.3 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 96.2 スマホ 0.0 0.0 3.0 2.0 6.0 0.0 79.0 1.0 9.0 80.6 トイレ 1.0 0.0 2.0 0.0 1.0 0.0 3.0 92.0 1.0 98.9 TV 2.0 0.0 3.0 0.0 1.0 0.0 11.0 0.0 83.0 87.4 F. [%] 95.6 94.2 89.4 96.4 91.6 98.0 79.8 95.3 85.1 91.7
  • 63. 統合モデルの混同行列 (その他あり) 632016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV その他 Pr. [%] Predictionlabel 片付け 81.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 17.0 97.6 料理 2.0 88.0 0.0 3.0 0.0 0.0 0.0 0.0 0.0 7.0 95.7 食事 0.0 2.0 92.0 0.0 0.0 0.0 0.0 0.0 0.0 6.0 97.9 PC 0.0 0.0 0.0 95.0 1.0 1.0 1.0 0.0 0.0 2.0 94.1 読書 0.0 0.0 0.0 0.0 90.0 7.0 1.0 0.0 1.0 1.0 88.2 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 92.6 スマホ 0.0 0.0 0.0 3.0 5.0 0.0 87.0 0.0 1.0 4.0 93.5 トイレ 0.0 0.0 0.0 0.0 0.0 0.0 2.0 81.0 1.0 16.0 98.8 TV 0.0 0.0 2.0 0.0 6.0 0.0 2.0 1.0 73.0 16.0 96.1 その他 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 100.0 59.2 F. [%] 88.5 91.7 94.8 94.5 89.1 96.2 90.2 89.0 83.0 74.3 89.1
  • 64. SVMの混同行列 (その他あり) 642016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV その他 Pr. [%] Predictionlabel 片付け 26.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 73.0 100.0 料理 0.0 65.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 35.0 95.6 食事 0.0 2.0 83.0 0.0 0.0 0.0 1.0 0.0 0.0 14.0 96.5 PC 0.0 0.0 0.0 95.0 0.0 0.0 1.0 0.0 0.0 4.0 99.0 読書 0.0 0.0 0.0 0.0 87.0 7.0 2.0 0.0 1.0 3.0 90.6 睡眠 0.0 0.0 0.0 0.0 0.0 100.0 0.0 0.0 0.0 0.0 92.6 スマホ 0.0 0.0 2.0 1.0 3.0 0.0 80.0 0.0 3.0 11.0 87.9 トイレ 0.0 0.0 0.0 0.0 0.0 1.0 2.0 64.0 1.0 32.0 100.0 TV 0.0 0.0 1.0 0.0 6.0 0.0 4.0 0.0 71.0 18.0 93.4 その他 0.0 0.0 0.0 0.0 0.0 0.0 1.0 0.0 0.0 99.0 34.3 F. [%] 41.3 77.4 89.2 96.9 88.8 96.2 83.8 78.0 80.7 50.9 78.3
  • 65. オープン結果の混同行列 652016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 Answer label 片付け 料理 食事 PC 読書 睡眠 スマホ トイレ TV Pr. [%] Predictionlabel 片付け 69.2 28.4 0.9 0.1 0.0 0.0 0.6 0.7 0.0 41.9 料理 31.3 64.0 0.5 0.5 0.2 0.8 0.2 2.2 0.3 74.6 食事 1.0 6.1 55.9 12.6 1.2 3.1 4.2 3.2 12.8 44.3 PC 0.3 1.7 10.7 22.2 15.4 16.4 5.6 3.2 24.5 40.7 読書 0.4 1.9 9.0 13.9 6.7 19.1 8.0 21.8 19.1 3.9 睡眠 0.0 0.0 0.2 8.1 7.3 66.8 7.9 4.8 4.9 64.9 スマホ 1.0 1.5 8.2 10.5 3.9 17.8 16.7 4.7 35.7 32.6 トイレ 10.3 15.5 1.3 2.6 3.9 8.7 0.3 54.8 2.6 24.4 TV 0.5 1.2 9.1 5.6 7.3 5.8 13.2 2.8 54.4 38.8 F. [%] 52.2 68.9 49.5 28.8 4.9 65.8 22.1 33.7 45.3 41.2
  • 66. 行動認識に関する先行研究 p 日常生活行動に関する音響イベント検出 n HMMを用いた健康管理に関する音響イベント検出 [ Peng et al., 2009 ] n 確率的生成モデルに基づく音響イベント系列推定 [ Imoto et al., 2013 ] p 加速度信号を用いた行動認識 n 携帯端末の加速度センサを用いた歩行などの単純な行動認識 [ Ouchi et al., 2012 ] n 加速度センサを用いた単純な行動認識 [ Kwaipisz et al, 2010 ] p マルチモーダル信号を用いた行動認識 n スマートフォンで収録された加速度と環境音による段階的な生活行動認識 [ Ouchi et al, 2014 ] n 腕時計型複数センサデバイスを用いた日常生活行動認識 [T. Maekawa et al., 2013] 662016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 2. 高次の生活行動が不十分な認識率であること 3. 個人ごとにモデルを構築する必要があること 先行研究の3つの問題点 1. 模擬的に収録された限定的な行動が対象であること
  • 67. 全パラメータ再学習 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 単純に全パラメータを再学習 67
  • 68. 一層のみを適応 (w/ dropout) 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 適応する層を変化させた場合の性能の変化 68
  • 69. 一層のみを適応 (w/o dropout) 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 適応する層を変化させた場合の性能の変化 69
  • 70. 線形変換ネットワーク挿入 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 挿入する層を変化させた場合の性能の変化 70
  • 71. SATの有無 p 線形変換を2層目に挿入した場合で比較 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 71
  • 72. それぞれの適応手法の比較 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p それぞれの結果で最も良かったモノ同士を比較 72
  • 73. SDモデルとの比較 2016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」 p 最も良かったモノとSDモデルを比較 73
  • 74. 適応手法間の比較 742016/08/24 音声研究会@京都大学 「Deep Neural Networkに基づく日常生活行動認識における適応手法」