SlideShare uma empresa Scribd logo
1 de 13
Baixar para ler offline
2014年 9月 
日本音響学会 秋季研究発表会 
音声B 3-7-4 
性別依存重回帰混合正規分布モデルに基づく 
差分スペクトル補正による 
歌声の知覚年齢制御法 
☆小林 和弘,戸田 智基, 中野 倫靖*, 後藤 真孝* , 
Graham Neubig,Sakriani Sakti,中村 哲 
2014©kazuhiro-k AHC-Lab, IS, NAIST 
奈良先端大, *産総研
魅力的に歌うためには 
DAISY BELL 
韻律に対するスキル声質に対するスキル 
音程を合わせる抑揚をつける声質を変える 
リズムを合わせる 
etc. 
声質は歌手の身体的制約により制限 
HARRY DACRE 
真似て歌う 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
2 
より魅力的に歌いたい 
歌手の身体的制約を超えた歌唱表現の実現 
etc. 
魅力的に歌うために必要なスキル
身体的制約を超えた歌唱支援 
統計的手法に基づく歌声声質変換 
任意の入力歌手から任意の目標歌手への個人性変換 
歌手の個人性を保持した知覚年齢に基づく声質制御 
[Kobayashi et al., 2014] 
過去現在未来 
声質制御声質制御 
低高 
知覚年齢 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
3 
[Doi et al., 2013] 
様々な年代の歌手から知覚年齢変動成分を推定し特定歌手に適用 
発表内容 
知覚年齢制御範囲の拡大 
変換歌声の自然性の向上
౉ജ⹤⠪䈱ㆬᛯ 
修正重回帰混合正規分布モデル(MR-GMM)に基づく 
․ቯ౉ജ⹤⠪GMM 
ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM䉕ቇ⠌ 
個人性を保持した知覚年齢制御 
੐೨෼㍳౉ജ⹤⠪ ㆡᔕ䊂䊷䉺 Ȝ(1) 
⇣ 
c 
P 
ㆡᔕY (i) 
GMM䈱ቇ⠌ 
• ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM修正MR-GMM 
t ,Y (o) 
t |(MR),w, ˆμ(Y ) 
– –      
m 
⌘ 
= 
MX 
↵mN 
m=1 
argmax (X ( ) ,Y | Ȝ) 
N 
T 
s 
t t 
s S 
s 
t 
P 1 
Ȝ 
入力歌手の特定モデル代表ベクトル差分知覚年齢スコア 
ㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ 
 
Y (i) 
t 
Y (o) 
t 
# 
; 
 
ˆμ(Y ) 
m 
μ(Y ) 
m (o) 
事前収録目標歌手特定モ䋶䋮ᨵエ䈭䊝䊂䊦᭴▽ᴺ䋺デル知覚年齢8 
スコア 
: 
: 
(1) X ੐೨෼㍳౉ജ⹤⠪ ಴ജ⹤⠪ 
# 
, 
 
⌃(Y Y ) 
m ⌃(YXY ) 
m 
⌃(YXY ) 
m ⌃(Y Y ) 
m 
X (2) Y 
X (10) Y –    
実験図Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
4 
重回帰分析により知覚年齢変動を表す代表ベクトルをモデル化 
1st 
2nd 
s-th 
25歳 
45歳 
35歳 
w(1) 
w(2) 
w(s) 
: 
: 
: 
: 
X XȜ(2) 
(2) 
Ȝ(S ) 
X ዕᐲ⸘▚䈮䉋䉍਄૏ N ੱ䉕ㆬᛯ 
ㆬᛯ䊌䊤䊧䊦䊂䊷䉺 
s S 
SS Ȝ( ) argmax Ȝ 
ㆡᔕGMMㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ 
MR-GMM 
差分知覚年齢スコア により知覚年齢を制御 
(! 
出力平均ベクトルの表現形式を変更する.式(5) で 
は,バイアスベクトルは全事前収録目標歌手の平均的 
な声質を表現しており,代表ベクトルは知覚年齢の変 
化に伴う平均ベクトルの変化を表す.これに対して, 
次式の通り,バイアスベクトルを声質制御対象歌手の 
平均ベクトルˆμ(Y ) 
m へと置き換える. 
μ(Y ) 
m (o) 
= ˆμY ) 
m + b(Y ) 
m Δw (6) 
ここで,Δw は声質制御対象歌手の知覚年齢を変化さ 
せる差分知覚年齢スコアである.これにより,全事前 
収録目標歌手の平均的な声質を中心とした部分空間 
ではなく,声質制御対象歌手の声質を中心とした部分 
空間により,出力平均ベクトルが表現される. 
4 実験的評価 
4.1 実験条件 
歌唱データとして,AIST ハミングデータベース: 
ポピュラー音楽(RWC-MDB-P-2001) 日本語歌詞, 
サビパート[5] を用いる.評価楽曲はNo.39 とする. 
MR-GMM の学習において,参照歌手として実年齢 
が20 代の女性1 名を用い,事前収録目標歌手として 
KWV^MZML[QVOQVO^WQKM Fig. 1 指覚年齢 
8ZMNMZMVKM[KWZMC
E 
Fig. 4.2 1 に知する評価結スコアを表与した知覚の変化量を
従来法の問題点と提案する解決法 
知覚年齢変換可能範囲が小さい 
原因: 知覚年齢のモデル化精度が低い 
性別の違いを考慮した変換モデルの構築 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
5 
知覚年齢変換歌声の自然性の劣化 
原因: Vocoderを用いた波形合成による品質劣化 
差分スペクトル補正に基づく歌声声質変換の 
変換枠組みを知覚年齢変換に適用[Kobayashi et al., 2014]
• ㆡᔕ䊂䊷䉺䈮ኻ䈜䉎ዕᐲ䈮ၮ䈨䈐䇮ૃ䈢ჿ⾰䉕ᜬ䈧੐೨෼㍳ 
ㆡᔕ䊂䊷䉺䈮ኻ䈜䉎ዕᐲ䈮ၮ䈨䈐䇮ૃ䈢ჿ⾰䉕ᜬ䈧੐೨෼㍳ 
౉ജ⹤⠪䈱ㆬᛯ 
性別依存MR-GMMの学習 
․ቯ౉ജ⹤⠪GMM 
੐೨෼㍳౉ജ⹤⠪ ಴ജ⹤⠪ 
話し声における知覚年齢に寄与する音響特徴量の調査 
X (1) Y 
․ቯ౉ജ⹤⠪GMM 
ㆡᔕ䊂䊷䉺 Ȝ(1) 
母音の平均フォルマント周波数に関する調査 [Linville et al., 2001] 
【F1 F2 
女性 (若い-老い) 著しく減少著しく減少 
男性 (若い-老い) 著しく減少わずかに減少 
歌声においても性別間で違いが存在する可能性 
男女の違いを考慮し,異なる知覚年齢変換モデルを構築 
੐೨෼㍳౉ജ⹤⠪ ಴ജ⹤⠪ 
Y 
X (2) 事前収録Y 
目標歌手(女性) 
Y X (10)   
– – Y   
–    精度の高い知覚年齢変動を代表ベクトルによりモデル化可能 
ㆡᔕ性別依存 
MR-GMM 
಴ജ⹤⠪ 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
6 
౉ജ⹤⠪䈱ㆬᛯ 
੐೨෼㍳౉ജ⹤⠪ X Xc 
Ȝ(2) 
X Ȝ(S ) 
ዕᐲ⸘▚䈮䉋䉍਄૏ N ੱ䉕ㆬᛯ 
• ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMMㆬᛯ䊌䊤䊧䊦䊂䊷䉺 
SS Ȝ( ) argmax Ȝ 
ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM䉕ቇ⠌ 
Y 
Y 
X (2) 
X (S ) 
Ȝ(1) 
Ȝ(2) 
Ȝ(S ) 
ዕᐲ⸘▚䈮䉋䉍਄૏ N ੱ䉕ㆬᛯ 
ㆬᛯ䊌䊤䊧䊦䊂䊷䉺 
N 
s 
s S 
T 
s 
t t 
t 
SS P 1 
Ȝ( ) argmax (X ( ) ,Y | Ȝ) 
Ȝ 
ㆡᔕGMM䈱ቇ⠌ 
ㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ 
性別依存 
MR-GMM 
事前収録目標歌手(男性) 
学習学習
差分スペクトル補正に基づく知覚年齢変換 
修正MR-GMMによる知覚年齢制御では分節的特徴のみを制御 
基本周波数の分析と操作が不要 
差分スペクトル補正に基づく歌声声質変換の枠組みを適用 
入力特徴量と目標特徴量の差分を入力自然歌声に対し補正 
Vocoderによる波形分析合成処理を回避することで自然性を向上 
差分スペクトル補正に基づく知覚年齢変換 
分析修正差分 
MR-GMM 
[Kobayashi et al., 2014] 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
7 
自然歌声を直接補正に利用 
スペクトル 
特徴量 
差分スペクトル 
特徴量 
入力自然歌声 
補正 
変換歌声
修正MR-GMMに変換行列 A を適用 
ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩X (2) 
X (S ) 
GMM䉕ቇ⠌ 
Y 
Y 
↵mN 
差分特徴量系列 
argmax (X ( ) ,Y | Ȝ) 
, 
αmN 
% 
μ(X) 
↵mN 
αmN 
 
% 
μ(X) 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
S ) 
ੱ䉕ㆬᛯ 
– –      
N 
s 
s S 
T 
P s 
t 1 
t 
t 
Ȝ 
ㆡᔕGMM䈱ቇ⠌ 
ㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ 
䋶䋮ᨵエ䈭䊝䊂䊦᭴▽ᴺ䋺8 
修正MR-GMM 
修正差分MR-GMMの導出 
8 
量ベクトルに変換する行列である. 
A = 
! 
I 0 
−I I 
 
この行列を式(1)に適用することで,入力特徴量クトルと差分特徴量ベクトルの結合確率密度をモル化する以下のGMM が導出される. 
P (Xt,Dt|λ)   
= 
M# 
m=1 
$! 
Xt 
Dt 
 
; 
m 
μ(D) 
m 
 
, 
! 
Σ(XX) 
m Σ(XD) 
m 
Σ(DX) 
m Σ(DD) 
m 
' 
μ(D) 
m = μ(Y ) 
m − μ(X) 
m Σ(XD) 
m = Σ(DX) 
m 
⊤ = Σ(XY ) 
m − Σ(XX) 
m Σ(DD) 
m = Σ(XX) 
m + Σ(Y Y ) 
m − Σ(XY ) 
m − Σ(YX) 
m このGMM に基づき,最尤系列変換法により静的分特徴量ベクトルを推定する.なお,本稿では,差スペクトル特徴量のGV については考慮しない. 
4 実験的評価 
実験条件 
P 
⇣ 
Y (i) 
t ,Y (o) 
(MR),t |w, μˆ(Y ) 
m 
⌘ 
= 
MX 
m=1 
 
Y (i) 
t 
Y (o) 
t 
# 
; 
 
ˆμ(Y ) 
m 
ˆμ(Y ) 
m +b(Y ) 
m w 
# 
, 
 
⌃(Y Y ) 
m ⌃(YXY ) 
m 
⌃(YXY ) 
m ⌃(Y Y ) 
m 
(! 
量ベクトルに変換する行列である. 
A = 
! 
I 0 
−I I 
 
(4) 
この行列を式(1)に適用することで,入力特徴量ベ 
クトルと差分特徴量ベクトルの結合確率密度をモデ 
ル化する以下のGMM が導出される. 
P (Xt,Dt|λ)   
= 
M# 
m=1 
$! 
Xt 
Dt 
 
; 
m 
μ(D) 
m 
 
, 
! 
Σ(XX) 
m Σ(XD) 
m 
Σ(DX) 
m Σ(DD) 
m 
' 
(5) 
μ(D) 
m = μ(Y ) 
m − μ(X) 
m (6) 
P 
⇣ 
Y (i) 
t ,Dt|(MR),w, μˆ(Y ) 
m 
⌘ 
= 
MX 
m=1 
 
Y (i) 
t 
Dt 
 
; 
ˆμ(Y ) 
m 
b(Y ) 
m w 
# 
, 
 
⌃(Y Y ) 
m ⌃(DY D) 
m 
⌃(DY D) 
m ⌃(DD) 
m 
! 
修正差分 
MR-GMM 知覚年齢変動 
修正差分MR-GMMは解析的に導出可能
実験環境 
知覚年齢変換精度に関する評価 
変換歌声の自然性に関するMOSによる評価 
SVC (I): 性別非依存MR-GMM + 通常変換 
SVC (D): 性別依存MR-GMM + 通常変換 
DIFFSVC (D) : 性別依存MR-GMM + 差分変換 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
9 
歌声データベースAISTハミングデータベース 
サンプリング周波数16 kHz 
事前収録目標歌手男性27名,女性27名 
評価歌手各年代の男女16名(オープン) 
学習データ25曲/人 
メルケプストラム24次元 (1st-25th),5周波数帯 
GMMの混合数メルケプストラム: 128, 非周期成分: 32 
GVの考慮通常変換: 有り,差分変換: 無し 
合成フィルタMLSAフィルタ 
被験者8名 
*STRAIGHT分析 [Kawahara et al., 1999]
差分知覚年齢スコアと変換歌声の知覚年齢 
性別依存モデルにより知覚年齢変換精度が向上 
10 
5 
0 
-5 
10 
5 
0 
-5 
10 
5 
0 
-5 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
10 
-10 
-10 
-10 
-60 -30 0 30 60 
Perceived age conversion setting 
Difference in perceived age 
after conversion 
SVC (I) 
SVC (D) 
DIFFSVC (D) 
95% confidence interval 
Regression line 
差分知覚年齢スコアの設定 
変換後の知覚年齢の差分 
性別依存モデルの違い: 大きい 
差分変換による違い: 小さい
自然性に関するMOS評価結果 
性別依存モデルと差分変換により自然性が向上 
5 
4.5 
4 
3.5 
3 
2.5 
2 
1.5 
SVC (I) 
DIFFSVC (D) 
SVC (D) 
95% confidence interval 
Better 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
11 
1 
-60 -30 0 30 60 
Perceived age conversion setting 
Mean opinion score 
Natural singing voice 
差分知覚年齢スコアの設定 
MOS 
worse
サンプル歌声 
10 
5 
age 
0 
perceived -5 
10 
5 
0 
in -5 
Difference 10 
5 
0 
-5 
Perceived age conversion setting Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
12 
-10 
-10 
-10 
-60 -30 0 30 60 
after conversion 
SVC (I) 
SVC (D) 
DIFFSVC (D) 
95% confidence interval 
Regression line 
差分知覚年齢スコアの設定 
変換後の知覚年齢の差分
まとめ 
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 
13 
個人性を保持した知覚年齢制御の変換精度の向上 
– 性別依存モデルによる知覚年齢変換 
– 差分スペクトル補正に基づく知覚年齢変換 
! 
実験結果 
性別依存モデルにより知覚年齢変換精度が向上 
性別依存モデル + 差分変換により変換歌声の自然性が向上 
! 今後の研究 
– 適応データ数を減らした際の変換精度の評価 
– 年齢変動に影響を与える差分スペクトル特徴量の分析

Mais conteúdo relacionado

Mais de 奈良先端大 情報科学研究科

Mais de 奈良先端大 情報科学研究科 (20)

テレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみようテレコミュニケーションを支援してみよう
テレコミュニケーションを支援してみよう
 
マイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろうマイコンと機械学習を使って行動認識システムを作ろう
マイコンと機械学習を使って行動認識システムを作ろう
 
5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計5G時代を支えるNFVによるネットワーク最適設計
5G時代を支えるNFVによるネットワーク最適設計
 
21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発21.Raspberry Piを用いたIoTアプリの開発
21.Raspberry Piを用いたIoTアプリの開発
 
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
20. 地理ビッグデータ利活用: リスク予測型自動避難誘導,地理的リスク分析
 
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!11.実装の脆弱性を利用して強力な暗号を解読してみよう!
11.実装の脆弱性を利用して強力な暗号を解読してみよう!
 
8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!8. ミニ・スーパコンピュータを自作しよう!
8. ミニ・スーパコンピュータを自作しよう!
 
16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう16. マイコンと機械学習を使って行動認識システムを作ろう
16. マイコンと機械学習を使って行動認識システムを作ろう
 
15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう15. テレイグジスタンスシステムを制作してみよう
15. テレイグジスタンスシステムを制作してみよう
 
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
14. ビデオシースルーHMDで視覚拡張の世界を体感しよう
 
19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御19. 生物に学ぶ人工知能とロボット制御
19. 生物に学ぶ人工知能とロボット制御
 
13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信13. SDRで学ぶ無線通信
13. SDRで学ぶ無線通信
 
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
18. 計測に基づいた写実的なコンピュータグラフィクスの生成法
 
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発21. 人の動作・行動センシングに基づく拡張現実感システムの開発
21. 人の動作・行動センシングに基づく拡張現実感システムの開発
 
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
20. 友好的関係を構築する人と対話ロボットのコミュニケーション技術開発
 
9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう9. マイコンと機械学習を使って行動認識システムを作ろう
9. マイコンと機械学習を使って行動認識システムを作ろう
 
6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御6. 生物に学ぶ人工知能とロボット制御
6. 生物に学ぶ人工知能とロボット制御
 
14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築14. モバイルエージェントによる並列分散学習システムの構築
14. モバイルエージェントによる並列分散学習システムの構築
 
17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう17. 100台の小型ロボットを協調させよう
17. 100台の小型ロボットを協調させよう
 
5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!5. ミニ・スーパコンピュータを自作しよう!
5. ミニ・スーパコンピュータを自作しよう!
 

Último

Último (12)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

性別依存重回帰混合正規分布モデルに基づく差分スペクトル補正による歌声の知覚年齢制御法

  • 1. 2014年 9月 日本音響学会 秋季研究発表会 音声B 3-7-4 性別依存重回帰混合正規分布モデルに基づく 差分スペクトル補正による 歌声の知覚年齢制御法 ☆小林 和弘,戸田 智基, 中野 倫靖*, 後藤 真孝* , Graham Neubig,Sakriani Sakti,中村 哲 2014©kazuhiro-k AHC-Lab, IS, NAIST 奈良先端大, *産総研
  • 2. 魅力的に歌うためには DAISY BELL 韻律に対するスキル声質に対するスキル 音程を合わせる抑揚をつける声質を変える リズムを合わせる etc. 声質は歌手の身体的制約により制限 HARRY DACRE 真似て歌う Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 2 より魅力的に歌いたい 歌手の身体的制約を超えた歌唱表現の実現 etc. 魅力的に歌うために必要なスキル
  • 3. 身体的制約を超えた歌唱支援 統計的手法に基づく歌声声質変換 任意の入力歌手から任意の目標歌手への個人性変換 歌手の個人性を保持した知覚年齢に基づく声質制御 [Kobayashi et al., 2014] 過去現在未来 声質制御声質制御 低高 知覚年齢 Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 3 [Doi et al., 2013] 様々な年代の歌手から知覚年齢変動成分を推定し特定歌手に適用 発表内容 知覚年齢制御範囲の拡大 変換歌声の自然性の向上
  • 4. ౉ജ⹤⠪䈱ㆬᛯ 修正重回帰混合正規分布モデル(MR-GMM)に基づく ․ቯ౉ജ⹤⠪GMM ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM䉕ቇ⠌ 個人性を保持した知覚年齢制御 ੐೨෼㍳౉ജ⹤⠪ ㆡᔕ䊂䊷䉺 Ȝ(1) ⇣ c P ㆡᔕY (i) GMM䈱ቇ⠌ • ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM修正MR-GMM t ,Y (o) t |(MR),w, ˆμ(Y ) – –  m ⌘ = MX ↵mN m=1 argmax (X ( ) ,Y | Ȝ) N T s t t s S s t P 1 Ȝ 入力歌手の特定モデル代表ベクトル差分知覚年齢スコア ㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ Y (i) t Y (o) t # ; ˆμ(Y ) m μ(Y ) m (o) 事前収録目標歌手特定モ䋶䋮ᨵエ䈭䊝䊂䊦᭴▽ᴺ䋺デル知覚年齢8 スコア : : (1) X ੐೨෼㍳౉ജ⹤⠪ ಴ജ⹤⠪ # ,  ⌃(Y Y ) m ⌃(YXY ) m ⌃(YXY ) m ⌃(Y Y ) m X (2) Y X (10) Y –  実験図Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 4 重回帰分析により知覚年齢変動を表す代表ベクトルをモデル化 1st 2nd s-th 25歳 45歳 35歳 w(1) w(2) w(s) : : : : X XȜ(2) (2) Ȝ(S ) X ዕᐲ⸘▚䈮䉋䉍਄૏ N ੱ䉕ㆬᛯ ㆬᛯ䊌䊤䊧䊦䊂䊷䉺 s S SS Ȝ( ) argmax Ȝ ㆡᔕGMMㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ MR-GMM 差分知覚年齢スコア により知覚年齢を制御 (! 出力平均ベクトルの表現形式を変更する.式(5) で は,バイアスベクトルは全事前収録目標歌手の平均的 な声質を表現しており,代表ベクトルは知覚年齢の変 化に伴う平均ベクトルの変化を表す.これに対して, 次式の通り,バイアスベクトルを声質制御対象歌手の 平均ベクトルˆμ(Y ) m へと置き換える. μ(Y ) m (o) = ˆμY ) m + b(Y ) m Δw (6) ここで,Δw は声質制御対象歌手の知覚年齢を変化さ せる差分知覚年齢スコアである.これにより,全事前 収録目標歌手の平均的な声質を中心とした部分空間 ではなく,声質制御対象歌手の声質を中心とした部分 空間により,出力平均ベクトルが表現される. 4 実験的評価 4.1 実験条件 歌唱データとして,AIST ハミングデータベース: ポピュラー音楽(RWC-MDB-P-2001) 日本語歌詞, サビパート[5] を用いる.評価楽曲はNo.39 とする. MR-GMM の学習において,参照歌手として実年齢 が20 代の女性1 名を用い,事前収録目標歌手として KWV^MZML[QVOQVO^WQKM Fig. 1 指覚年齢 8ZMNMZMVKM[KWZMC E Fig. 4.2 1 に知する評価結スコアを表与した知覚の変化量を
  • 5. 従来法の問題点と提案する解決法 知覚年齢変換可能範囲が小さい 原因: 知覚年齢のモデル化精度が低い 性別の違いを考慮した変換モデルの構築 Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 5 知覚年齢変換歌声の自然性の劣化 原因: Vocoderを用いた波形合成による品質劣化 差分スペクトル補正に基づく歌声声質変換の 変換枠組みを知覚年齢変換に適用[Kobayashi et al., 2014]
  • 6. • ㆡᔕ䊂䊷䉺䈮ኻ䈜䉎ዕᐲ䈮ၮ䈨䈐䇮ૃ䈢ჿ⾰䉕ᜬ䈧੐೨෼㍳ ㆡᔕ䊂䊷䉺䈮ኻ䈜䉎ዕᐲ䈮ၮ䈨䈐䇮ૃ䈢ჿ⾰䉕ᜬ䈧੐೨෼㍳ ౉ജ⹤⠪䈱ㆬᛯ 性別依存MR-GMMの学習 ․ቯ౉ജ⹤⠪GMM ੐೨෼㍳౉ജ⹤⠪ ಴ജ⹤⠪ 話し声における知覚年齢に寄与する音響特徴量の調査 X (1) Y ․ቯ౉ജ⹤⠪GMM ㆡᔕ䊂䊷䉺 Ȝ(1) 母音の平均フォルマント周波数に関する調査 [Linville et al., 2001] 【F1 F2 女性 (若い-老い) 著しく減少著しく減少 男性 (若い-老い) 著しく減少わずかに減少 歌声においても性別間で違いが存在する可能性 男女の違いを考慮し,異なる知覚年齢変換モデルを構築 ੐೨෼㍳౉ജ⹤⠪ ಴ജ⹤⠪ Y X (2) 事前収録Y 目標歌手(女性) Y X (10) – – Y –  精度の高い知覚年齢変動を代表ベクトルによりモデル化可能 ㆡᔕ性別依存 MR-GMM ಴ജ⹤⠪ Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 6 ౉ജ⹤⠪䈱ㆬᛯ ੐೨෼㍳౉ജ⹤⠪ X Xc Ȝ(2) X Ȝ(S ) ዕᐲ⸘▚䈮䉋䉍਄૏ N ੱ䉕ㆬᛯ • ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMMㆬᛯ䊌䊤䊧䊦䊂䊷䉺 SS Ȝ( ) argmax Ȝ ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM䉕ቇ⠌ Y Y X (2) X (S ) Ȝ(1) Ȝ(2) Ȝ(S ) ዕᐲ⸘▚䈮䉋䉍਄૏ N ੱ䉕ㆬᛯ ㆬᛯ䊌䊤䊧䊦䊂䊷䉺 N s s S T s t t t SS P 1 Ȝ( ) argmax (X ( ) ,Y | Ȝ) Ȝ ㆡᔕGMM䈱ቇ⠌ ㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ 性別依存 MR-GMM 事前収録目標歌手(男性) 学習学習
  • 7. 差分スペクトル補正に基づく知覚年齢変換 修正MR-GMMによる知覚年齢制御では分節的特徴のみを制御 基本周波数の分析と操作が不要 差分スペクトル補正に基づく歌声声質変換の枠組みを適用 入力特徴量と目標特徴量の差分を入力自然歌声に対し補正 Vocoderによる波形分析合成処理を回避することで自然性を向上 差分スペクトル補正に基づく知覚年齢変換 分析修正差分 MR-GMM [Kobayashi et al., 2014] Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 7 自然歌声を直接補正に利用 スペクトル 特徴量 差分スペクトル 特徴量 入力自然歌声 補正 変換歌声
  • 8. 修正MR-GMMに変換行列 A を適用 ㆬᛯ䈘䉏䈢⹤⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩X (2) X (S ) GMM䉕ቇ⠌ Y Y ↵mN 差分特徴量系列 argmax (X ( ) ,Y | Ȝ) , αmN % μ(X) ↵mN αmN % μ(X) Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 S ) ੱ䉕ㆬᛯ – –  N s s S T P s t 1 t t Ȝ ㆡᔕGMM䈱ቇ⠌ ㆬᛯ⹤⠪䈮ኻ䈜䉎ዕᐲ 䋶䋮ᨵエ䈭䊝䊂䊦᭴▽ᴺ䋺8 修正MR-GMM 修正差分MR-GMMの導出 8 量ベクトルに変換する行列である. A = ! I 0 −I I この行列を式(1)に適用することで,入力特徴量クトルと差分特徴量ベクトルの結合確率密度をモル化する以下のGMM が導出される. P (Xt,Dt|λ)   = M# m=1 $! Xt Dt ; m μ(D) m , ! Σ(XX) m Σ(XD) m Σ(DX) m Σ(DD) m ' μ(D) m = μ(Y ) m − μ(X) m Σ(XD) m = Σ(DX) m ⊤ = Σ(XY ) m − Σ(XX) m Σ(DD) m = Σ(XX) m + Σ(Y Y ) m − Σ(XY ) m − Σ(YX) m このGMM に基づき,最尤系列変換法により静的分特徴量ベクトルを推定する.なお,本稿では,差スペクトル特徴量のGV については考慮しない. 4 実験的評価 実験条件 P ⇣ Y (i) t ,Y (o) (MR),t |w, μˆ(Y ) m ⌘ = MX m=1 Y (i) t Y (o) t # ; ˆμ(Y ) m ˆμ(Y ) m +b(Y ) m w # ,  ⌃(Y Y ) m ⌃(YXY ) m ⌃(YXY ) m ⌃(Y Y ) m (! 量ベクトルに変換する行列である. A = ! I 0 −I I (4) この行列を式(1)に適用することで,入力特徴量ベ クトルと差分特徴量ベクトルの結合確率密度をモデ ル化する以下のGMM が導出される. P (Xt,Dt|λ)   = M# m=1 $! Xt Dt ; m μ(D) m , ! Σ(XX) m Σ(XD) m Σ(DX) m Σ(DD) m ' (5) μ(D) m = μ(Y ) m − μ(X) m (6) P ⇣ Y (i) t ,Dt|(MR),w, μˆ(Y ) m ⌘ = MX m=1  Y (i) t Dt ; ˆμ(Y ) m b(Y ) m w # ,  ⌃(Y Y ) m ⌃(DY D) m ⌃(DY D) m ⌃(DD) m ! 修正差分 MR-GMM 知覚年齢変動 修正差分MR-GMMは解析的に導出可能
  • 9. 実験環境 知覚年齢変換精度に関する評価 変換歌声の自然性に関するMOSによる評価 SVC (I): 性別非依存MR-GMM + 通常変換 SVC (D): 性別依存MR-GMM + 通常変換 DIFFSVC (D) : 性別依存MR-GMM + 差分変換 Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 9 歌声データベースAISTハミングデータベース サンプリング周波数16 kHz 事前収録目標歌手男性27名,女性27名 評価歌手各年代の男女16名(オープン) 学習データ25曲/人 メルケプストラム24次元 (1st-25th),5周波数帯 GMMの混合数メルケプストラム: 128, 非周期成分: 32 GVの考慮通常変換: 有り,差分変換: 無し 合成フィルタMLSAフィルタ 被験者8名 *STRAIGHT分析 [Kawahara et al., 1999]
  • 10. 差分知覚年齢スコアと変換歌声の知覚年齢 性別依存モデルにより知覚年齢変換精度が向上 10 5 0 -5 10 5 0 -5 10 5 0 -5 Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 10 -10 -10 -10 -60 -30 0 30 60 Perceived age conversion setting Difference in perceived age after conversion SVC (I) SVC (D) DIFFSVC (D) 95% confidence interval Regression line 差分知覚年齢スコアの設定 変換後の知覚年齢の差分 性別依存モデルの違い: 大きい 差分変換による違い: 小さい
  • 11. 自然性に関するMOS評価結果 性別依存モデルと差分変換により自然性が向上 5 4.5 4 3.5 3 2.5 2 1.5 SVC (I) DIFFSVC (D) SVC (D) 95% confidence interval Better Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 11 1 -60 -30 0 30 60 Perceived age conversion setting Mean opinion score Natural singing voice 差分知覚年齢スコアの設定 MOS worse
  • 12. サンプル歌声 10 5 age 0 perceived -5 10 5 0 in -5 Difference 10 5 0 -5 Perceived age conversion setting Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 12 -10 -10 -10 -60 -30 0 30 60 after conversion SVC (I) SVC (D) DIFFSVC (D) 95% confidence interval Regression line 差分知覚年齢スコアの設定 変換後の知覚年齢の差分
  • 13. まとめ Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13 13 個人性を保持した知覚年齢制御の変換精度の向上 – 性別依存モデルによる知覚年齢変換 – 差分スペクトル補正に基づく知覚年齢変換 ! 実験結果 性別依存モデルにより知覚年齢変換精度が向上 性別依存モデル + 差分変換により変換歌声の自然性が向上 ! 今後の研究 – 適応データ数を減らした際の変換精度の評価 – 年齢変動に影響を与える差分スペクトル特徴量の分析