SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
©Yuki Saito, 2021/03/04
主観的話者間類似度を考慮した
DNN話者埋め込みのための Active Learning
齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大)
第136回 音声言語情報処理研究会 (SIG-SLP)
/31
1
研究背景
 DNN 話者埋め込み: DNN を用いて音声特徴量から話者表現を獲得
– 様々な応用が可能な, 音声情報処理分野における基盤技術の一つ
• 話者認識や話者照合 (識別的タスク) での特徴抽出 (e.g., [Variani+14])
• 音声合成や声質変換 (生成的タスク) での声質制御 (e.g., [Jia+18])
 本発表: 生成的タスクに適した DNN 話者埋め込みの学習法
– 合成音声の品質改善 & 直感的な声質制御を実現
– 人間の話者知覚を反映するような話者表現を学習
DNN
NG
ASV
DNN
TTS
Discriminative task
(e.g., automatic speaker verification: ASV)
Generative task
(e.g., text-to-speech: TTS)
DNN: Deep Neural Network
/31
2
本発表の概要
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み*
– 話者間類似度の大規模主観スコアリングの結果を用いた学習法
– 話者認識ベースの手法よりも生成的タスクに適した話者表現を学習
 問題点: 主観スコアリング実施 / DNN 話者埋め込み学習のコスト
– スコアリングが必要な話者対の数は, 話者数の2乗に比例
– スコアリング後の DNN 話者埋め込み学習の時間的コストも必要
 提案法: 主観スコアリングと DNN 話者埋め込みの active learning
– 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習
– 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査
 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習
*[Saito+SSW19][齋藤+ASJ2020秋]
/31
3
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
 1. 主観的話者間類似度の大規模スコアリング
 2. 類似度スコアを用いた DNN 話者埋め込みの学習
4
従来法:
主観的話者間類似度ベース DNN 話者埋め込み
DNN
(Spkr. encoder)
Learned
similarity
Speech
feats.
Similarity
score
Spkr.
repr.
Similarity
score
Perceptual
similarity
scoring
Spkr.
pairs
[Saito+SSW19][齋藤+ASJ20秋]
Similarity
loss
/31
5
主観的話者間類似度の大規模スコアリング
 クラウドソーシングで, 話者間の主観的な類似度をスコアリング
– JNAS [Itou+99] コーパスに含まれる153名の女性話者の発話を使用
• 各話者毎に異なる発話内容 → テキスト非依存な類似度を評価
– 合計の評価者数: 4,060 名 (ランダムに選ばれた34話者対 / 評価者)
• スコアリングの評価値: -3 (似ていない) ~ +3 (似ている)
• 1つの話者対を少なくとも異なる10名以上が評価
話者対の音声サンプル
/31
6
主観的話者間類似度の行列表現
 類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔𝑁s
– 𝑁s: スコアリングに用いられた話者数
– 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s
⊤
: 𝑖番目の話者の類似度スコアベクトル
• 𝑠𝑖,𝑗: 𝑖番目の話者と𝑗番目の話者の類似度スコア −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣
3
2
1
0
−1
−2
−3
(a) Full score matrix
(153 females)
(b) Sub-matrix of (a)
(13 females)
本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開
これまでに, 類似度スコアを用いた3つの学習法を提案
/31
 音声特徴量から類似度スコアベクトルを予測するように学習
7
学習法1: 類似度ベクトル埋め込み
𝐿SIM
(vec)
𝒔, 𝒔 =
1
𝑁𝑠
𝒔 − 𝒔 ⊤
𝒔 − 𝒔
Spkr. encoder
𝐿SIM
(vec)
𝒔
𝒔
𝐒
Sim. score
vector Sim. score
matrix
Speech
feats.
Similarity
vector
prediction
𝒅
/31
 話者表現の Gram 行列を類似度スコア行列に近づけるように学習
8
学習法2: 類似度行列埋め込み
𝐿SIM
(mat)
𝐿SIM
(mat)
𝐃, 𝐒 =
1
𝑍s
𝐊𝐃 − 𝐒 𝐹
2
𝐊𝐃
Gram
matrix
Calc.
kernel
𝑘 ⋅,⋅
𝑍s: 話者数の影響を正規化するための係数 ( ⋅ は, 当該行列の対角成分を除いた行列)
𝐒
Sim. score
matrix
Speech
feats.
𝒅
Spkr. encoder
/31
𝑎𝑖,𝑗
 話者表現の対から類似度グラフの辺の有無を予測するように学習
9
学習法3: 類似度グラフ埋め込み
𝐿SIM
graph
𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗
Spkr. sim.
graph
Edge
prediction 0: no edge
1: exist edge
𝐿SIM
(graph)
𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2
2
: 辺の生起確率 ([Li+18] を参照に定義)
𝐒
Sim. score
matrix
Speech
feats.
𝒅
Spkr. encoder
/31
10
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
11
提案法の動機
 従来法: 主観スコアリング / DNN 話者埋め込みの直列型学習
– 全ての類似度スコアの観測後に, DNN 話者埋め込みの学習を開始
– 問題点1: 主観スコアリングの金銭的コスト
• スコアリング作業の数は, 話者数の2乗に比例
• 評価者1人あたりの作業数を増やせばコストは削減可能だが,
評価者の負担は増加 (スコアリング結果の信頼性低下の可能性)
– 問題点2: DNN 話者埋め込み学習の時間的コスト
• 全ての類似度スコアを用いた学習の反復に多大な計算時間が必要
 動機: 直列型学習からの脱却 & コストの削減
– 主観スコアリングと DNN 話者埋め込み学習を逐次的に実行
– 次にスコア付けすべき話者対の優先度を適切に決定すれば,
少ない観測スコア / 学習反復回数で良い話者表現が得られるのでは?
/31
12
Active learning [Settle10]
 目的: ラベル付けのコストを削減しつつ, 高い性能のモデルを学習
– 少数のラベル付きデータと多数のラベル無しデータを使用
– 逐次的に学習される機械学習モデルの予測結果に基づき,
次にラベル付けすべきデータの優先度を決定
Pool-based active learning のサイクル (図は [Settle10] の Fig. 1 より引用)
/31
13
提案法: 主観スコアリングと DNN 話者埋め込みの
active learning
 主観スコアリングと DNN 話者埋め込みの学習を交互に反復
– スコアリング / 学習のコストを削減しつつ, より良い話者表現を学習
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
/31
14
スコア付けされた話者対のデータを用いた
DNN 話者埋め込み学習
 部分的にスコア付けされたデータで spkr. encoder を学習
– 学習法: 類似度 { ベクトル, 行列, グラフ } 埋め込みのいずれか
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
/31
15
学習された話者表現を用いた類似度スコア予測
 スコア付けされてない話者対に対して仮の類似度スコアを予測
– Spkr. encoder から出力される話者表現の対で類似度スコアを計算
: +3
: 0
: -2
Predicted
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
/31
16
予測された類似度スコアを用いたクエリ選択
 スコアの予測結果に基づき, 次にスコア付けする話者対を選択
– クエリ戦略: どういった基準で話者対を選択するのかを決定
: +3
: 0
: -2
Predicted
: HSF
: MSF
: LSF
Selected
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
Query
strategy
{ Higher, Middle, Lower }-Similarity First
/31
17
選択されたクエリに対するスコアリング
 評価者にクエリの音声サンプルを提示し, 類似度スコア付けを依頼
– 新たにスコア付けされた話者対をスコア済みデータのプールに追加
: +3
: 0
: -2
Predicted
: HSF
: MSF
: LSF
Selected
Spkr. encoder
training
Score
prediction
Query
selection
Score
annotation
: +3
: -1
: ??
: ??
: ??
Spkr. encoder
Scored
spkr. pairs
Listeners
Unscored
spkr. pairs
Vector Matrix Graph
Query
strategy
: +1
/31
18
考察
 提案法: human-in-the-loop 型の DNN 話者埋め込み学習
– 人間の知覚評価が計算ループに内在し, 解釈しやすい話者表現を学習
• (c.f., 人間の知覚評価に基づく敵対的生成ネットワーク [Fujii+20][Ueda+21])
 クエリ戦略 = 類似度の識別精度を改善すべき話者対の優先順位
– LSF / HSF: 非類似話者対 / 類似話者対の識別精度を優先
– MSF: 類似 / 非類似の判定が困難な話者対の識別精度を優先
Similarity score
−3 −1
−2 0 +2 +3
+1
Frequency
40,000
30,000
20,000
10,000
0
Cumulative
ratio
0.0
0.2
0.4
0.6
0.8
1.0
LSF HSF
MSF
類似度スコアのヒストグラムの図は [Saito+SSW19] より引用
/31
19
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
実験条件
20
データセット
(16 kHz sampling)
JNAS [Itou+99] の女性話者153名
主観スコアリング用: 5発話
DNN 話者埋め込みの学習 / 評価用: 約130発話 / 約15発話
(F001 ~ F013 の13名は, 学習データから除外 = 未知話者)
主観スコアリングの値
-3 (似ていない) ~ +3 (似ている) の整数
(DNN 話者埋め込み学習時には [-1, +1] か [0, 1] に正規化)
音声特徴量 40次メルケプストラム, F0, 非周期性指標
DNN アーキテクチャ すべて Feed-Forward 型ネットワーク (詳細は原稿を参照)
話者表現の次元 8
Active learning の設定
Pool-based simulation
(未観測スコアは binary masking で損失関数計算から除外)
学習法
(1) Sim. (vec): 類似度ベクトル埋め込み
(2) Sim. (mat): 類似度行列埋め込み
(3) Sim. (graph): 類似度グラフ埋め込み
/31
21
客観評価指標:
話者表現を用いた類似話者対識別の AUC
 目的: 話者表現由来の類似度と主観的な類似度との整合性を評価
– Receiver Operating Characteristic (ROC) curve
• 様々な閾値設定を用いた場合の2値分類器の
false / true positive rate の変化を可視化
– Area Under the ROC Curve (AUC): ROC curve の下面積 (0.5 ~ 1.0)
• 値が1に近ければ近いほど, 良い識別性能であることを意味
学習話者同士の対 学習話者-未知話者の対
0
1
False positive rate
True
positive
rate
0 1 0 1
ROC curve [Brown+06], AUC [Hanley+82], d-vector [Variani+14]
d-vector
Sim. (vec)
Sim. (mat)
Sim. (graph)
/31
22
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
1反復毎のクエリ数: 43
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
MSF に基づく active learning は, LSF / HSF よりも安定して動作!
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)
/31
23
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
Active learning により, FS と同程度の AUC を少ない反復回数で達成!
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)
1反復毎のクエリ数: 43
/31
24
Active learning の反復による AUC の改善
 各学習法毎に, active learning とクエリ戦略の影響を調査
– 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか
FS
(100%)
PS
(50%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
LSF HSF MSF PS (50%) FS (100%)
学習-未知話者対 (i.e., open data) の類似度識別精度が劣化
1
(50%)
30
(62.5%)
60
(75%)
90
(87.5%)
115
(100%)
0.70
0.65
0.60
0.55
0.50
0.90
0.85
0.80
0.75
0.78
0.76
0.74
0.72
0.94
0.92
0.90
0.88
0.86
0.84
0.82
0.82
0.80
0.78
0.76
0.72
0.70
0.68
0.66
0.64
0.62
0.60
Sim. (vec) Sim. (mat) Sim. (graph)
1反復毎のクエリ数: 43
/31
25
主観評価指標:
VAE に基づく多話者音響モデリングの合成音声品質
 VAE に基づく多話者音響モデリング [Saito+AST21]
– 事前学習済みの音声認識モデルと speaker encoder により,
音韻と話者性を分離して VAE 多話者音響モデルを学習
VAE: Variational AutoEncoder [Kingma+13], PPG: Phonetic PosteriorGrams [Sun+16]
VAE
encoder
VAE
decoder
Pre-trained
speech
recognition
あ
a
i
u
PPG
Spkr. repr.
Pre-trained
spkr.
encoder
VAE
latent var.
Input
speech
feats.
Generated
speech
feats.
本発表では, 未知話者 (i.e., F001 ~ F013) の音声の auto-encoding の品質を評価
/31
26
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
Sim. (vec) Sim. (mat) Sim. (graph)
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
/31
27
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
Sim. (vec) Sim. (mat) Sim. (graph)
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
MSF に基づく active learning は,
FS と同程度の DMOS をより少ないスコアリング / 学習反復回数で達成!
/31
28
MSF に基づく active learning の主観評価
 合成音声の話者類似性に関する DMOS テスト w/ 50 listeners
– PS (50%) / FS / MSF で学習された話者表現を比較
• 表の (xx%): スコア付けされた話者対の割合
– 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成
Sim. (vec) Sim. (mat) Sim. (graph)
PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13
MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13
(75%) 3.04±0.14 3.00±0.13 3.02±0.13
(87.5%) 3.05±0.14 3.03±0.13 3.06±0.13
FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14
24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
PS / MSF / FS の DMOS に有意差なし
/31
29
より少ないスコア済みデータを用いた
active learning の評価
 5% のスコア済みデータを用いて active learning を開始
– クエリ戦略としては MSF のみを使用
FS
(100%)
PS
(5%)
学習-学習
学習-未知
Active learning iteration (w/ % of observed scores)
類似話者対識別の
ACU
MSF PS (5%) FS (100%)
50% のスコア済みデータを用いた場合と同様の AUC 改善 / 劣化 を確認
1
(5%)
47
(25%)
104
(50%)
160
(75%)
217
(100%)
0.85
0.80
0.75
0.70
0.65
0.90
0.85
0.80
0.75
0.75
0.70
0.65
0.90
0.85
0.80
0.75
0.70
0.82
0.78
0.76
0.74
0.80
0.75
0.70
0.65
0.60
0.55
Sim. (vec) Sim. (mat) Sim. (graph)
1反復毎のクエリ数: 43
0.60
0.55
0.70
0.65
0.72
0.70
0.80
N/A
N/A
/31
30
目次
 研究背景
 従来法: 主観的話者間類似度ベース DNN 話者埋め込み
 主観的話者間類似度ベース DNN 話者埋め込みの active learning
 実験的評価
 まとめ
/31
31
まとめ
 目的: 低コストの主観的話者間類似度ベース DNN 話者埋め込み
– 主観スコアリング / DNN 話者埋め込み学習のコストを削減
 提案法: 主観スコアリングと DNN 話者埋め込みの active learning
– 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習
– 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査
 結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習
 今後の予定
– Active learning におけるハイパーパラメータの影響を調査
• 1反復あたりのクエリ数, クエリ選択の頻度, etc...
– 異なるクエリ戦略を用いた場合の性能評価
• (e.g., uncertainty sampling [Lewis+94])
 これまでの研究成果をまとめた論文 (IEEE/ACM TASLP 誌) →

Mais conteúdo relacionado

Mais procurados

短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討Shinnosuke Takamichi
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...Deep Learning JP
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析Shinnosuke Takamichi
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧Kitamura Laboratory
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)Yoshinari Fujinuma
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス Shinnosuke Takamichi
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3Naoya Takahashi
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測Kitamura Laboratory
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 

Mais procurados (20)

短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
[DL輪読会]DNN-based Source Enhancement to Increase Objective Sound Quality Asses...
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧非負値行列因子分解を用いた被り音の抑圧
非負値行列因子分解を用いた被り音の抑圧
 
言語モデル入門 (第二版)
言語モデル入門 (第二版)言語モデル入門 (第二版)
言語モデル入門 (第二版)
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 

Mais de Yuki Saito

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdfYuki Saito
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_ascYuki Saito
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfYuki Saito
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUSYuki Saito
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn MeetingYuki Saito
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 readingYuki Saito
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumnYuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020Yuki Saito
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_publishedYuki Saito
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationYuki Saito
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会Yuki Saito
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asjYuki Saito
 

Mais de Yuki Saito (20)

hirai23slp03.pdf
hirai23slp03.pdfhirai23slp03.pdf
hirai23slp03.pdf
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 
miyoshi17sp07
miyoshi17sp07miyoshi17sp07
miyoshi17sp07
 
miyoshi2017asj
miyoshi2017asjmiyoshi2017asj
miyoshi2017asj
 

Último

Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...Lokesh Kothari
 
G9 Science Q4- Week 1-2 Projectile Motion.ppt
G9 Science Q4- Week 1-2 Projectile Motion.pptG9 Science Q4- Week 1-2 Projectile Motion.ppt
G9 Science Q4- Week 1-2 Projectile Motion.pptMAESTRELLAMesa2
 
TEST BANK For Radiologic Science for Technologists, 12th Edition by Stewart C...
TEST BANK For Radiologic Science for Technologists, 12th Edition by Stewart C...TEST BANK For Radiologic Science for Technologists, 12th Edition by Stewart C...
TEST BANK For Radiologic Science for Technologists, 12th Edition by Stewart C...ssifa0344
 
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking  the Potential: Deep dive into ocean of Ceramic Magnets.pptxUnlocking  the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptxanandsmhk
 
Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )aarthirajkumar25
 
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptxBroad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptxjana861314
 
Bentham & Hooker's Classification. along with the merits and demerits of the ...
Bentham & Hooker's Classification. along with the merits and demerits of the ...Bentham & Hooker's Classification. along with the merits and demerits of the ...
Bentham & Hooker's Classification. along with the merits and demerits of the ...Nistarini College, Purulia (W.B) India
 
PossibleEoarcheanRecordsoftheGeomagneticFieldPreservedintheIsuaSupracrustalBe...
PossibleEoarcheanRecordsoftheGeomagneticFieldPreservedintheIsuaSupracrustalBe...PossibleEoarcheanRecordsoftheGeomagneticFieldPreservedintheIsuaSupracrustalBe...
PossibleEoarcheanRecordsoftheGeomagneticFieldPreservedintheIsuaSupracrustalBe...Sérgio Sacani
 
Disentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOSTDisentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOSTSérgio Sacani
 
Grafana in space: Monitoring Japan's SLIM moon lander in real time
Grafana in space: Monitoring Japan's SLIM moon lander  in real timeGrafana in space: Monitoring Japan's SLIM moon lander  in real time
Grafana in space: Monitoring Japan's SLIM moon lander in real timeSatoshi NAKAHIRA
 
Isotopic evidence of long-lived volcanism on Io
Isotopic evidence of long-lived volcanism on IoIsotopic evidence of long-lived volcanism on Io
Isotopic evidence of long-lived volcanism on IoSérgio Sacani
 
Call Us ≽ 9953322196 ≼ Call Girls In Mukherjee Nagar(Delhi) |
Call Us ≽ 9953322196 ≼ Call Girls In Mukherjee Nagar(Delhi) |Call Us ≽ 9953322196 ≼ Call Girls In Mukherjee Nagar(Delhi) |
Call Us ≽ 9953322196 ≼ Call Girls In Mukherjee Nagar(Delhi) |aasikanpl
 
Hubble Asteroid Hunter III. Physical properties of newly found asteroids
Hubble Asteroid Hunter III. Physical properties of newly found asteroidsHubble Asteroid Hunter III. Physical properties of newly found asteroids
Hubble Asteroid Hunter III. Physical properties of newly found asteroidsSérgio Sacani
 
CALL ON ➥8923113531 🔝Call Girls Kesar Bagh Lucknow best Night Fun service 🪡
CALL ON ➥8923113531 🔝Call Girls Kesar Bagh Lucknow best Night Fun service  🪡CALL ON ➥8923113531 🔝Call Girls Kesar Bagh Lucknow best Night Fun service  🪡
CALL ON ➥8923113531 🔝Call Girls Kesar Bagh Lucknow best Night Fun service 🪡anilsa9823
 
Cultivation of KODO MILLET . made by Ghanshyam pptx
Cultivation of KODO MILLET . made by Ghanshyam pptxCultivation of KODO MILLET . made by Ghanshyam pptx
Cultivation of KODO MILLET . made by Ghanshyam pptxpradhanghanshyam7136
 
Biological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdfBiological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdfmuntazimhurra
 
A relative description on Sonoporation.pdf
A relative description on Sonoporation.pdfA relative description on Sonoporation.pdf
A relative description on Sonoporation.pdfnehabiju2046
 
Natural Polymer Based Nanomaterials
Natural Polymer Based NanomaterialsNatural Polymer Based Nanomaterials
Natural Polymer Based NanomaterialsAArockiyaNisha
 

Último (20)

Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
Labelling Requirements and Label Claims for Dietary Supplements and Recommend...
 
G9 Science Q4- Week 1-2 Projectile Motion.ppt
G9 Science Q4- Week 1-2 Projectile Motion.pptG9 Science Q4- Week 1-2 Projectile Motion.ppt
G9 Science Q4- Week 1-2 Projectile Motion.ppt
 
TEST BANK For Radiologic Science for Technologists, 12th Edition by Stewart C...
TEST BANK For Radiologic Science for Technologists, 12th Edition by Stewart C...TEST BANK For Radiologic Science for Technologists, 12th Edition by Stewart C...
TEST BANK For Radiologic Science for Technologists, 12th Edition by Stewart C...
 
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking  the Potential: Deep dive into ocean of Ceramic Magnets.pptxUnlocking  the Potential: Deep dive into ocean of Ceramic Magnets.pptx
Unlocking the Potential: Deep dive into ocean of Ceramic Magnets.pptx
 
The Philosophy of Science
The Philosophy of ScienceThe Philosophy of Science
The Philosophy of Science
 
Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )Recombination DNA Technology (Nucleic Acid Hybridization )
Recombination DNA Technology (Nucleic Acid Hybridization )
 
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptxBroad bean, Lima Bean, Jack bean, Ullucus.pptx
Broad bean, Lima Bean, Jack bean, Ullucus.pptx
 
Bentham & Hooker's Classification. along with the merits and demerits of the ...
Bentham & Hooker's Classification. along with the merits and demerits of the ...Bentham & Hooker's Classification. along with the merits and demerits of the ...
Bentham & Hooker's Classification. along with the merits and demerits of the ...
 
PossibleEoarcheanRecordsoftheGeomagneticFieldPreservedintheIsuaSupracrustalBe...
PossibleEoarcheanRecordsoftheGeomagneticFieldPreservedintheIsuaSupracrustalBe...PossibleEoarcheanRecordsoftheGeomagneticFieldPreservedintheIsuaSupracrustalBe...
PossibleEoarcheanRecordsoftheGeomagneticFieldPreservedintheIsuaSupracrustalBe...
 
Disentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOSTDisentangling the origin of chemical differences using GHOST
Disentangling the origin of chemical differences using GHOST
 
Grafana in space: Monitoring Japan's SLIM moon lander in real time
Grafana in space: Monitoring Japan's SLIM moon lander  in real timeGrafana in space: Monitoring Japan's SLIM moon lander  in real time
Grafana in space: Monitoring Japan's SLIM moon lander in real time
 
Isotopic evidence of long-lived volcanism on Io
Isotopic evidence of long-lived volcanism on IoIsotopic evidence of long-lived volcanism on Io
Isotopic evidence of long-lived volcanism on Io
 
Call Us ≽ 9953322196 ≼ Call Girls In Mukherjee Nagar(Delhi) |
Call Us ≽ 9953322196 ≼ Call Girls In Mukherjee Nagar(Delhi) |Call Us ≽ 9953322196 ≼ Call Girls In Mukherjee Nagar(Delhi) |
Call Us ≽ 9953322196 ≼ Call Girls In Mukherjee Nagar(Delhi) |
 
Hubble Asteroid Hunter III. Physical properties of newly found asteroids
Hubble Asteroid Hunter III. Physical properties of newly found asteroidsHubble Asteroid Hunter III. Physical properties of newly found asteroids
Hubble Asteroid Hunter III. Physical properties of newly found asteroids
 
CALL ON ➥8923113531 🔝Call Girls Kesar Bagh Lucknow best Night Fun service 🪡
CALL ON ➥8923113531 🔝Call Girls Kesar Bagh Lucknow best Night Fun service  🪡CALL ON ➥8923113531 🔝Call Girls Kesar Bagh Lucknow best Night Fun service  🪡
CALL ON ➥8923113531 🔝Call Girls Kesar Bagh Lucknow best Night Fun service 🪡
 
Cultivation of KODO MILLET . made by Ghanshyam pptx
Cultivation of KODO MILLET . made by Ghanshyam pptxCultivation of KODO MILLET . made by Ghanshyam pptx
Cultivation of KODO MILLET . made by Ghanshyam pptx
 
Biological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdfBiological Classification BioHack (3).pdf
Biological Classification BioHack (3).pdf
 
A relative description on Sonoporation.pdf
A relative description on Sonoporation.pdfA relative description on Sonoporation.pdf
A relative description on Sonoporation.pdf
 
CELL -Structural and Functional unit of life.pdf
CELL -Structural and Functional unit of life.pdfCELL -Structural and Functional unit of life.pdf
CELL -Structural and Functional unit of life.pdf
 
Natural Polymer Based Nanomaterials
Natural Polymer Based NanomaterialsNatural Polymer Based Nanomaterials
Natural Polymer Based Nanomaterials
 

Saito2103slp

  • 1. ©Yuki Saito, 2021/03/04 主観的話者間類似度を考慮した DNN話者埋め込みのための Active Learning 齋藤 佑樹, 高道 慎之介, 猿渡 洋 (東大) 第136回 音声言語情報処理研究会 (SIG-SLP)
  • 2. /31 1 研究背景  DNN 話者埋め込み: DNN を用いて音声特徴量から話者表現を獲得 – 様々な応用が可能な, 音声情報処理分野における基盤技術の一つ • 話者認識や話者照合 (識別的タスク) での特徴抽出 (e.g., [Variani+14]) • 音声合成や声質変換 (生成的タスク) での声質制御 (e.g., [Jia+18])  本発表: 生成的タスクに適した DNN 話者埋め込みの学習法 – 合成音声の品質改善 & 直感的な声質制御を実現 – 人間の話者知覚を反映するような話者表現を学習 DNN NG ASV DNN TTS Discriminative task (e.g., automatic speaker verification: ASV) Generative task (e.g., text-to-speech: TTS) DNN: Deep Neural Network
  • 3. /31 2 本発表の概要  従来法: 主観的話者間類似度ベース DNN 話者埋め込み* – 話者間類似度の大規模主観スコアリングの結果を用いた学習法 – 話者認識ベースの手法よりも生成的タスクに適した話者表現を学習  問題点: 主観スコアリング実施 / DNN 話者埋め込み学習のコスト – スコアリングが必要な話者対の数は, 話者数の2乗に比例 – スコアリング後の DNN 話者埋め込み学習の時間的コストも必要  提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査  結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習 *[Saito+SSW19][齋藤+ASJ2020秋]
  • 4. /31 3 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 5. /31  1. 主観的話者間類似度の大規模スコアリング  2. 類似度スコアを用いた DNN 話者埋め込みの学習 4 従来法: 主観的話者間類似度ベース DNN 話者埋め込み DNN (Spkr. encoder) Learned similarity Speech feats. Similarity score Spkr. repr. Similarity score Perceptual similarity scoring Spkr. pairs [Saito+SSW19][齋藤+ASJ20秋] Similarity loss
  • 6. /31 5 主観的話者間類似度の大規模スコアリング  クラウドソーシングで, 話者間の主観的な類似度をスコアリング – JNAS [Itou+99] コーパスに含まれる153名の女性話者の発話を使用 • 各話者毎に異なる発話内容 → テキスト非依存な類似度を評価 – 合計の評価者数: 4,060 名 (ランダムに選ばれた34話者対 / 評価者) • スコアリングの評価値: -3 (似ていない) ~ +3 (似ている) • 1つの話者対を少なくとも異なる10名以上が評価 話者対の音声サンプル
  • 7. /31 6 主観的話者間類似度の行列表現  類似度スコア行列 𝐒 = 𝒔1, ⋯ , 𝒔𝑖, ⋯ , 𝒔𝑁s – 𝑁s: スコアリングに用いられた話者数 – 𝒔𝑖 = 𝑠𝑖,1, ⋯ , 𝑠𝑖,𝑗, ⋯ , 𝑠𝑖,𝑁s ⊤ : 𝑖番目の話者の類似度スコアベクトル • 𝑠𝑖,𝑗: 𝑖番目の話者と𝑗番目の話者の類似度スコア −𝑣 ≤ 𝑠𝑖,𝑗 ≤ 𝑣 3 2 1 0 −1 −2 −3 (a) Full score matrix (153 females) (b) Sub-matrix of (a) (13 females) 本発表で用いた類似度行列は http://sython.org/demo/JSPS-DC1/index.html で公開 これまでに, 類似度スコアを用いた3つの学習法を提案
  • 8. /31  音声特徴量から類似度スコアベクトルを予測するように学習 7 学習法1: 類似度ベクトル埋め込み 𝐿SIM (vec) 𝒔, 𝒔 = 1 𝑁𝑠 𝒔 − 𝒔 ⊤ 𝒔 − 𝒔 Spkr. encoder 𝐿SIM (vec) 𝒔 𝒔 𝐒 Sim. score vector Sim. score matrix Speech feats. Similarity vector prediction 𝒅
  • 9. /31  話者表現の Gram 行列を類似度スコア行列に近づけるように学習 8 学習法2: 類似度行列埋め込み 𝐿SIM (mat) 𝐿SIM (mat) 𝐃, 𝐒 = 1 𝑍s 𝐊𝐃 − 𝐒 𝐹 2 𝐊𝐃 Gram matrix Calc. kernel 𝑘 ⋅,⋅ 𝑍s: 話者数の影響を正規化するための係数 ( ⋅ は, 当該行列の対角成分を除いた行列) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
  • 10. /31 𝑎𝑖,𝑗  話者表現の対から類似度グラフの辺の有無を予測するように学習 9 学習法3: 類似度グラフ埋め込み 𝐿SIM graph 𝒅𝑖, 𝒅𝑗 = −𝑎𝑖,𝑗 log 𝑝𝑖,𝑗 − 1 − 𝑎𝑖,𝑗 log 1 − 𝑝𝑖,𝑗 Spkr. sim. graph Edge prediction 0: no edge 1: exist edge 𝐿SIM (graph) 𝑝𝑖,𝑗 = exp − 𝒅𝑖 − 𝒅𝑗 2 2 : 辺の生起確率 ([Li+18] を参照に定義) 𝐒 Sim. score matrix Speech feats. 𝒅 Spkr. encoder
  • 11. /31 10 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 12. /31 11 提案法の動機  従来法: 主観スコアリング / DNN 話者埋め込みの直列型学習 – 全ての類似度スコアの観測後に, DNN 話者埋め込みの学習を開始 – 問題点1: 主観スコアリングの金銭的コスト • スコアリング作業の数は, 話者数の2乗に比例 • 評価者1人あたりの作業数を増やせばコストは削減可能だが, 評価者の負担は増加 (スコアリング結果の信頼性低下の可能性) – 問題点2: DNN 話者埋め込み学習の時間的コスト • 全ての類似度スコアを用いた学習の反復に多大な計算時間が必要  動機: 直列型学習からの脱却 & コストの削減 – 主観スコアリングと DNN 話者埋め込み学習を逐次的に実行 – 次にスコア付けすべき話者対の優先度を適切に決定すれば, 少ない観測スコア / 学習反復回数で良い話者表現が得られるのでは?
  • 13. /31 12 Active learning [Settle10]  目的: ラベル付けのコストを削減しつつ, 高い性能のモデルを学習 – 少数のラベル付きデータと多数のラベル無しデータを使用 – 逐次的に学習される機械学習モデルの予測結果に基づき, 次にラベル付けすべきデータの優先度を決定 Pool-based active learning のサイクル (図は [Settle10] の Fig. 1 より引用)
  • 14. /31 13 提案法: 主観スコアリングと DNN 話者埋め込みの active learning  主観スコアリングと DNN 話者埋め込みの学習を交互に反復 – スコアリング / 学習のコストを削減しつつ, より良い話者表現を学習 Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs
  • 15. /31 14 スコア付けされた話者対のデータを用いた DNN 話者埋め込み学習  部分的にスコア付けされたデータで spkr. encoder を学習 – 学習法: 類似度 { ベクトル, 行列, グラフ } 埋め込みのいずれか Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
  • 16. /31 15 学習された話者表現を用いた類似度スコア予測  スコア付けされてない話者対に対して仮の類似度スコアを予測 – Spkr. encoder から出力される話者表現の対で類似度スコアを計算 : +3 : 0 : -2 Predicted Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph
  • 17. /31 16 予測された類似度スコアを用いたクエリ選択  スコアの予測結果に基づき, 次にスコア付けする話者対を選択 – クエリ戦略: どういった基準で話者対を選択するのかを決定 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy { Higher, Middle, Lower }-Similarity First
  • 18. /31 17 選択されたクエリに対するスコアリング  評価者にクエリの音声サンプルを提示し, 類似度スコア付けを依頼 – 新たにスコア付けされた話者対をスコア済みデータのプールに追加 : +3 : 0 : -2 Predicted : HSF : MSF : LSF Selected Spkr. encoder training Score prediction Query selection Score annotation : +3 : -1 : ?? : ?? : ?? Spkr. encoder Scored spkr. pairs Listeners Unscored spkr. pairs Vector Matrix Graph Query strategy : +1
  • 19. /31 18 考察  提案法: human-in-the-loop 型の DNN 話者埋め込み学習 – 人間の知覚評価が計算ループに内在し, 解釈しやすい話者表現を学習 • (c.f., 人間の知覚評価に基づく敵対的生成ネットワーク [Fujii+20][Ueda+21])  クエリ戦略 = 類似度の識別精度を改善すべき話者対の優先順位 – LSF / HSF: 非類似話者対 / 類似話者対の識別精度を優先 – MSF: 類似 / 非類似の判定が困難な話者対の識別精度を優先 Similarity score −3 −1 −2 0 +2 +3 +1 Frequency 40,000 30,000 20,000 10,000 0 Cumulative ratio 0.0 0.2 0.4 0.6 0.8 1.0 LSF HSF MSF 類似度スコアのヒストグラムの図は [Saito+SSW19] より引用
  • 20. /31 19 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 21. /31 実験条件 20 データセット (16 kHz sampling) JNAS [Itou+99] の女性話者153名 主観スコアリング用: 5発話 DNN 話者埋め込みの学習 / 評価用: 約130発話 / 約15発話 (F001 ~ F013 の13名は, 学習データから除外 = 未知話者) 主観スコアリングの値 -3 (似ていない) ~ +3 (似ている) の整数 (DNN 話者埋め込み学習時には [-1, +1] か [0, 1] に正規化) 音声特徴量 40次メルケプストラム, F0, 非周期性指標 DNN アーキテクチャ すべて Feed-Forward 型ネットワーク (詳細は原稿を参照) 話者表現の次元 8 Active learning の設定 Pool-based simulation (未観測スコアは binary masking で損失関数計算から除外) 学習法 (1) Sim. (vec): 類似度ベクトル埋め込み (2) Sim. (mat): 類似度行列埋め込み (3) Sim. (graph): 類似度グラフ埋め込み
  • 22. /31 21 客観評価指標: 話者表現を用いた類似話者対識別の AUC  目的: 話者表現由来の類似度と主観的な類似度との整合性を評価 – Receiver Operating Characteristic (ROC) curve • 様々な閾値設定を用いた場合の2値分類器の false / true positive rate の変化を可視化 – Area Under the ROC Curve (AUC): ROC curve の下面積 (0.5 ~ 1.0) • 値が1に近ければ近いほど, 良い識別性能であることを意味 学習話者同士の対 学習話者-未知話者の対 0 1 False positive rate True positive rate 0 1 0 1 ROC curve [Brown+06], AUC [Hanley+82], d-vector [Variani+14] d-vector Sim. (vec) Sim. (mat) Sim. (graph)
  • 23. /31 22 Active learning の反復による AUC の改善  各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか 1反復毎のクエリ数: 43 FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) MSF に基づく active learning は, LSF / HSF よりも安定して動作! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph)
  • 24. /31 23 Active learning の反復による AUC の改善  各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) Active learning により, FS と同程度の AUC を少ない反復回数で達成! 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
  • 25. /31 24 Active learning の反復による AUC の改善  各学習法毎に, active learning とクエリ戦略の影響を調査 – 反復により, PS よりもどれだけ改善するか & FS にどれだけ近づくか FS (100%) PS (50%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU LSF HSF MSF PS (50%) FS (100%) 学習-未知話者対 (i.e., open data) の類似度識別精度が劣化 1 (50%) 30 (62.5%) 60 (75%) 90 (87.5%) 115 (100%) 0.70 0.65 0.60 0.55 0.50 0.90 0.85 0.80 0.75 0.78 0.76 0.74 0.72 0.94 0.92 0.90 0.88 0.86 0.84 0.82 0.82 0.80 0.78 0.76 0.72 0.70 0.68 0.66 0.64 0.62 0.60 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43
  • 26. /31 25 主観評価指標: VAE に基づく多話者音響モデリングの合成音声品質  VAE に基づく多話者音響モデリング [Saito+AST21] – 事前学習済みの音声認識モデルと speaker encoder により, 音韻と話者性を分離して VAE 多話者音響モデルを学習 VAE: Variational AutoEncoder [Kingma+13], PPG: Phonetic PosteriorGrams [Sun+16] VAE encoder VAE decoder Pre-trained speech recognition あ a i u PPG Spkr. repr. Pre-trained spkr. encoder VAE latent var. Input speech feats. Generated speech feats. 本発表では, 未知話者 (i.e., F001 ~ F013) の音声の auto-encoding の品質を評価
  • 27. /31 26 MSF に基づく active learning の主観評価  合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし
  • 28. /31 27 MSF に基づく active learning の主観評価  合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし MSF に基づく active learning は, FS と同程度の DMOS をより少ないスコアリング / 学習反復回数で達成!
  • 29. /31 28 MSF に基づく active learning の主観評価  合成音声の話者類似性に関する DMOS テスト w/ 50 listeners – PS (50%) / FS / MSF で学習された話者表現を比較 • 表の (xx%): スコア付けされた話者対の割合 – 13名の未知話者の合成音声を混合させて評価セットを手法毎に作成 Sim. (vec) Sim. (mat) Sim. (graph) PS (50%) 2.85±0.14 2.90±0.13 2.86±0.13 MSF (62.5%) 2.95±0.14 2.93±0.13 3.03±0.13 (75%) 3.04±0.14 3.00±0.13 3.02±0.13 (87.5%) 3.05±0.14 3.03±0.13 3.06±0.13 FS (100%) 3.14±0.14 2.98±0.13 3.08±0.14 24 answers / listener. 表中の太字は, FS と 𝑝 > 0.05 で有意差なし PS / MSF / FS の DMOS に有意差なし
  • 30. /31 29 より少ないスコア済みデータを用いた active learning の評価  5% のスコア済みデータを用いて active learning を開始 – クエリ戦略としては MSF のみを使用 FS (100%) PS (5%) 学習-学習 学習-未知 Active learning iteration (w/ % of observed scores) 類似話者対識別の ACU MSF PS (5%) FS (100%) 50% のスコア済みデータを用いた場合と同様の AUC 改善 / 劣化 を確認 1 (5%) 47 (25%) 104 (50%) 160 (75%) 217 (100%) 0.85 0.80 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.75 0.70 0.65 0.90 0.85 0.80 0.75 0.70 0.82 0.78 0.76 0.74 0.80 0.75 0.70 0.65 0.60 0.55 Sim. (vec) Sim. (mat) Sim. (graph) 1反復毎のクエリ数: 43 0.60 0.55 0.70 0.65 0.72 0.70 0.80 N/A N/A
  • 31. /31 30 目次  研究背景  従来法: 主観的話者間類似度ベース DNN 話者埋め込み  主観的話者間類似度ベース DNN 話者埋め込みの active learning  実験的評価  まとめ
  • 32. /31 31 まとめ  目的: 低コストの主観的話者間類似度ベース DNN 話者埋め込み – 主観スコアリング / DNN 話者埋め込み学習のコストを削減  提案法: 主観スコアリングと DNN 話者埋め込みの active learning – 主観スコアリングと DNN 学習を反復し, 話者表現を逐次的に学習 – 次にスコアリングすべき話者対を決めるクエリ戦略の影響も調査  結果: コストを削減しつつ, 生成的タスクに適した話者表現を学習  今後の予定 – Active learning におけるハイパーパラメータの影響を調査 • 1反復あたりのクエリ数, クエリ選択の頻度, etc... – 異なるクエリ戦略を用いた場合の性能評価 • (e.g., uncertainty sampling [Lewis+94])  これまでの研究成果をまとめた論文 (IEEE/ACM TASLP 誌) →