Saito2103slp

©Yuki Saito, 2021/03/04
主観的話者間類似度を考慮した
DNN話者埋め込みのための Active Learning
齋藤佑樹, 高道慎之介, 猿渡洋 (東大)
第136回音声言語情報処理研究会 (SIG-SLP)

/31
1
研究背景
 DNN 話者埋め込み: DNN を用いて音声特徴量から話者表現を獲得
– 様々な応用が可能な, 音声情報処理分野における基盤技術の一つ
• 話者認識や話者照合 (識別的タスク) での特徴抽出 (e.g., [Variani+14])
• 音声合成や声質変換 (生成的タスク) での声質制御 (e.g., [Jia+18])
 本発表: 生成的タスクに適した DNN 話者埋め込みの学習法
– 合成音声の品質改善 & 直感的な声質制御を実現
– 人間の話者知覚を反映するような話者表現を学習
DNN
NG
ASV
DNN
TTS
Discriminative task
(e.g., automatic speaker verification: ASV)
Generative task
(e.g., text-to-speech: TTS)
DNN: Deep Neural Network

/31
2
本発表の概要
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み*
– 話者間類似度の大規模主観スコアリングの結果を用いた学習法
– 話者認識ベースの手法よりも生成的タスクに適した話者表現を学習
 問題点: 主観スコアリング実施 / DNN 話者埋め込み学習のコスト
– スコアリングが必要な話者対の数は, 話者数の2乗に比例
– スコアリング後の DNN 話者埋め込み学習の時間的コストも必要
 提案法: 主観スコアリングと DNN 話者埋め込みの active learning
– 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習
– 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査
 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習
*[Saito+SSW19][齋藤+ASJ2020秋]

/31
3
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ

/31
 1. 主観的話者間類似度の大規模スコアリング
 2. 類似度スコアを用いた DNN 話者埋め込みの学習
4
従来法:
主観的話者間類似度ベース DNN 話者埋め込み
DNN
(Spkr. encoder)
Learned
similarity
Speech
feats.
Similarity
score
Spkr.
repr.
Similarity
score
Perceptual
similarity
scoring
Spkr.
pairs
[Saito+SSW19][齋藤+ASJ20秋]
Similarity
loss

/31
5
主観的話者間類似度の大規模スコアリング
 クラウドソーシングで, 話者間の主観的な類似度をスコアリング
– JNAS [Itou+99] コーパスに含まれる153名の女性話者の発話を使用
• 各話者毎に異なる発話内容 → テキスト非依存な類似度を評価
– 合計の評価者数: 4,060 名 (ランダムに選ばれた34話者対 / 評価者)
• スコアリングの評価値: －3 (似ていない) ～＋3 (似ている)
• 1つの話者対を少なくとも異なる10名以上が評価
話者対の音声サンプル

/31
6
主観的話者間類似度の行列表現
 類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔𝑁s
– 𝑁s: スコアリングに用いられた話者数
– 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s
⊤
: 𝑖番目の話者の類似度スコアベクトル
• 𝑠𝑖,𝑗: 𝑖番目の話者と𝑗番目の話者の類似度スコア −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣
3
2
1
0
−1
−2
−3
(a) Full score matrix
（153 females）
(b) Sub-matrix of (a)
（13 females）
本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開
これまでに, 類似度スコアを用いた3つの学習法を提案

/31
 音声特徴量から類似度スコアベクトルを予測するように学習
7
学習法1: 類似度ベクトル埋め込み
𝐿SIM
(vec)
𝒔, 𝒔 =
1
𝑁𝑠
𝒔 − 𝒔 ⊤
𝒔 − 𝒔
Spkr. encoder
𝐿SIM
(vec)
𝒔
𝒔
𝐒
Sim. score
vector Sim. score
matrix
Speech
feats.
Similarity
vector
prediction
𝒅

/31
 話者表現の Gram 行列を類似度スコア行列に近づけるように学習
8
学習法2: 類似度行列埋め込み
𝐿SIM
(mat)
𝐿SIM
(mat)
𝐃, 𝐒 =
1
𝑍s
𝐊𝐃 − 𝐒 𝐹
2
𝐊𝐃
Gram
matrix
Calc.
kernel
𝑘 ⋅,⋅
𝑍s: 話者数の影響を正規化するための係数 ( ⋅ は, 当該行列の対角成分を除いた行列)
𝐒
Sim. score
matrix
Speech
feats.
𝒅
Spkr. encoder

/31
𝑎𝑖,𝑗
 話者表現の対から類似度グラフの辺の有無を予測するように学習
9
学習法3: 類似度グラフ埋め込み
𝐿SIM
graph
𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗
Spkr. sim.
graph
Edge
prediction 0: no edge
1: exist edge
𝐿SIM
(graph)
𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2
2
: 辺の生起確率 ([Li+18] を参照に定義)
𝐒
Sim. score
matrix
Speech
feats.
𝒅
Spkr. encoder

/31
10
目次
 研究背景
 実験的評価
 まとめ

/31
11
提案法の動機
 従来法: 主観スコアリング / DNN 話者埋め込みの直列型学習
– 全ての類似度スコアの観測後に, DNN 話者埋め込みの学習を開始
– 問題点1: 主観スコアリングの金銭的コスト
• スコアリング作業の数は, 話者数の2乗に比例
• 評価者1人あたりの作業数を増やせばコストは削減可能だが,
評価者の負担は増加 (スコアリング結果の信頼性低下の可能性)
– 問題点2: DNN 話者埋め込み学習の時間的コスト
• 全ての類似度スコアを用いた学習の反復に多大な計算時間が必要
 動機: 直列型学習からの脱却 & コストの削減
– 主観スコアリングと DNN 話者埋め込み学習を逐次的に実行
– 次にスコア付けすべき話者対の優先度を適切に決定すれば,
少ない観測スコア / 学習反復回数で良い話者表現が得られるのでは?

/31
12
Active learning [Settle10]
 目的: ラベル付けのコストを削減しつつ, 高い性能のモデルを学習
– 少数のラベル付きデータと多数のラベル無しデータを使用
– 逐次的に学習される機械学習モデルの予測結果に基づき,
次にラベル付けすべきデータの優先度を決定
Pool-based active learning のサイクル (図は [Settle10] の Fig. 1 より引用)

/31
13
提案法: 主観スコアリングと DNN 話者埋め込みの
active learning
 主観スコアリングと DNN 話者埋め込みの学習を交互に反復
– スコアリング / 学習のコストを削減しつつ, より良い話者表現を学習
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs

/31
14
スコア付けされた話者対のデータを用いた
DNN 話者埋め込み学習
 部分的にスコア付けされたデータで spkr. encoder を学習
– 学習法: 類似度 { ベクトル, 行列, グラフ } 埋め込みのいずれか
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph

/31
15
学習された話者表現を用いた類似度スコア予測
 スコア付けされてない話者対に対して仮の類似度スコアを予測
– Spkr. encoder から出力される話者表現の対で類似度スコアを計算
: +3
: 0
: -2
Predicted
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph

/31
16
予測された類似度スコアを用いたクエリ選択
 スコアの予測結果に基づき, 次にスコア付けする話者対を選択
– クエリ戦略: どういった基準で話者対を選択するのかを決定
: +3
: 0
: -2
Predicted
: HSF
: MSF
: LSF
Selected
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
Query
strategy
{ Higher, Middle, Lower }-Similarity First

/31
17
選択されたクエリに対するスコアリング
 評価者にクエリの音声サンプルを提示し, 類似度スコア付けを依頼
– 新たにスコア付けされた話者対をスコア済みデータのプールに追加
: +3
: 0
: -2
Predicted
: HSF
: MSF
: LSF
Selected
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
Query
strategy
: +1

/31
18
考察
 提案法: human-in-the-loop 型の DNN 話者埋め込み学習
– 人間の知覚評価が計算ループに内在し, 解釈しやすい話者表現を学習
• (c.f., 人間の知覚評価に基づく敵対的生成ネットワーク [Fujii+20][Ueda+21])
 クエリ戦略 = 類似度の識別精度を改善すべき話者対の優先順位
– LSF / HSF: 非類似話者対 / 類似話者対の識別精度を優先
– MSF: 類似 / 非類似の判定が困難な話者対の識別精度を優先
Similarity score
−3 −1
−2 0 +2 +3
+1
Frequency
40,000
30,000
20,000
10,000
0
Cumulative
ratio
0.0
0.2
0.4
0.6
0.8
1.0
LSF HSF
MSF
類似度スコアのヒストグラムの図は [Saito+SSW19] より引用

/31
19
目次
 研究背景
 実験的評価
 まとめ

/31
実験条件
20
データセット
(16 kHz sampling)
JNAS [Itou+99] の女性話者153名
主観スコアリング用: 5発話
DNN 話者埋め込みの学習 / 評価用: 約130発話 / 約15発話
(F001 ~ F013 の13名は, 学習データから除外 = 未知話者)
主観スコアリングの値
－3 (似ていない) ~ ＋3 (似ている) の整数
(DNN 話者埋め込み学習時には [－1, ＋1] か [0, 1] に正規化)
音声特徴量 40次メルケプストラム, F0, 非周期性指標
DNN アーキテクチャすべて Feed-Forward 型ネットワーク (詳細は原稿を参照)
話者表現の次元 8
Active learning の設定
Pool-based simulation
(未観測スコアは binary masking で損失関数計算から除外)
学習法
(1) Sim. (vec): 類似度ベクトル埋め込み
(2) Sim. (mat): 類似度行列埋め込み
(3) Sim. (graph): 類似度グラフ埋め込み

/31
21
客観評価指標:
話者表現を用いた類似話者対識別の AUC
 目的: 話者表現由来の類似度と主観的な類似度との整合性を評価
– Receiver Operating Characteristic (ROC) curve
• 様々な閾値設定を用いた場合の2値分類器の
false / true positive rate の変化を可視化
– Area Under the ROC Curve (AUC): ROC curve の下面積 (0.5 ~ 1.0)
• 値が1に近ければ近いほど, 良い識別性能であることを意味
学習話者同士の対学習話者-未知話者の対
0
1
False positive rate
True
positive
rate
0 1 0 1
ROC curve [Brown+06], AUC [Hanley+82], d-vector [Variani+14]
d-vector
Sim. (vec)
Sim. (mat)
Sim. (graph)

/31
22
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
1反復毎のクエリ数: 43
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
MSF に基づく active learning は, LSF / HSF よりも安定して動作！
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)

/31
23
FS
(100%)
PS
(50%)
学習-学習
学習-未知
ACU
Active learning により, FS と同程度の AUC を少ない反復回数で達成！
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60

/31
24
FS
(100%)
PS
(50%)
学習-学習
学習-未知
ACU
学習-未知話者対 (i.e., open data) の類似度識別精度が劣化
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60

/31
25
主観評価指標:
VAE に基づく多話者音響モデリングの合成音声品質
 VAE に基づく多話者音響モデリング [Saito+AST21]
– 事前学習済みの音声認識モデルと speaker encoder により,
音韻と話者性を分離して VAE 多話者音響モデルを学習
VAE: Variational AutoEncoder [Kingma+13], PPG: Phonetic PosteriorGrams [Sun+16]
VAE
encoder
VAE
decoder
Pre-trained
speech
recognition
あ
a
i
u
PPG
Spkr. repr.
Pre-trained
spkr.
encoder
VAE
latent var.
Input
speech
feats.
Generated
speech
feats.
本発表では, 未知話者 (i.e., F001 ~ F013) の音声の auto-encoding の品質を評価

/31
26
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし

/31
27
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
MSF に基づく active learning は,
FS と同程度の DMOS をより少ないスコアリング / 学習反復回数で達成！

/31
28
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
PS / MSF / FS の DMOS に有意差なし

/31
29
より少ないスコア済みデータを用いた
active learning の評価
 5% のスコア済みデータを用いて active learning を開始
– クエリ戦略としては MSF のみを使用
FS
(100%)
PS
(5%)
学習-学習
学習-未知
ACU
MSF PS (5%) FS (100%)
50% のスコア済みデータを用いた場合と同様の AUC 改善 / 劣化を確認
1
(5%)
47
(25%)
104
(50%)
160
(75%)
217
(100%)
0.85
0.80
0.75
0.70
0.65
0.90
0.85
0.80
0.75
0.75
0.70
0.65
0.90
0.85
0.80
0.75
0.70
0.82
0.78
0.76
0.74
0.80
0.75
0.70
0.65
0.60
0.55
0.60
0.55
0.70
0.65
0.72
0.70
0.80
N/A
N/A

/31
30
目次
 研究背景
 実験的評価
 まとめ

/31
31
まとめ
 目的: 低コストの主観的話者間類似度ベース DNN 話者埋め込み
– 主観スコアリング / DNN 話者埋め込み学習のコストを削減
 提案法: 主観スコアリングと DNN 話者埋め込みの active learning
– 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習
– 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査
 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習
 今後の予定
– Active learning におけるハイパーパラメータの影響を調査
• 1反復あたりのクエリ数, クエリ選択の頻度, etc...
– 異なるクエリ戦略を用いた場合の性能評価
• (e.g., uncertainty sampling [Lewis+94])
 これまでの研究成果をまとめた論文 (IEEE/ACM TASLP 誌) →

Saito2103slp

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Mais de Yuki Saito

Mais de Yuki Saito (20)

Último

Último (20)

Saito2103slp