Mais conteúdo relacionado
Mais de 奈良先端大 情報科学研究科 (20)
性別依存重回帰混合正規分布モデルに基づく差分スペクトル補正による歌声の知覚年齢制御法
- 1. 2014年 9月
日本音響学会 秋季研究発表会
音声B 3-7-4
性別依存重回帰混合正規分布モデルに基づく
差分スペクトル補正による
歌声の知覚年齢制御法
☆小林 和弘,戸田 智基, 中野 倫靖*, 後藤 真孝* ,
Graham Neubig,Sakriani Sakti,中村 哲
2014©kazuhiro-k AHC-Lab, IS, NAIST
奈良先端大, *産総研
- 2. 魅力的に歌うためには
DAISY BELL
韻律に対するスキル声質に対するスキル
音程を合わせる抑揚をつける声質を変える
リズムを合わせる
etc.
声質は歌手の身体的制約により制限
HARRY DACRE
真似て歌う
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
2
より魅力的に歌いたい
歌手の身体的制約を超えた歌唱表現の実現
etc.
魅力的に歌うために必要なスキル
- 4. ജ⠪䈱ㆬᛯ
修正重回帰混合正規分布モデル(MR-GMM)に基づく
․ቯജ⠪GMM
ㆬᛯ䈘䉏䈢⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM䉕ቇ⠌
個人性を保持した知覚年齢制御
೨㍳ജ⠪ ㆡᔕ䊂䊷䉺 Ȝ(1)
⇣
c
P
ㆡᔕY (i)
GMM䈱ቇ⠌
• ㆬᛯ䈘䉏䈢⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM修正MR-GMM
t ,Y (o)
t |(MR),w, ˆμ(Y )
– –
m
⌘
=
MX
↵mN
m=1
argmax (X ( ) ,Y | Ȝ)
N
T
s
t t
s S
s
t
P 1
Ȝ
入力歌手の特定モデル代表ベクトル差分知覚年齢スコア
ㆬᛯ⠪䈮ኻ䈜䉎ዕᐲ
Y (i)
t
Y (o)
t
#
;
ˆμ(Y )
m
μ(Y )
m (o)
事前収録目標歌手特定モ䋶䋮ᨵエ䈭䊝䊂䊦᭴▽ᴺ䋺デル知覚年齢8
スコア
:
:
(1) X ೨㍳ജ⠪ ജ⠪
#
,
⌃(Y Y )
m ⌃(YXY )
m
⌃(YXY )
m ⌃(Y Y )
m
X (2) Y
X (10) Y –
実験図Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
4
重回帰分析により知覚年齢変動を表す代表ベクトルをモデル化
1st
2nd
s-th
25歳
45歳
35歳
w(1)
w(2)
w(s)
:
:
:
:
X XȜ(2)
(2)
Ȝ(S )
X ዕᐲ⸘▚䈮䉋䉍 N ੱ䉕ㆬᛯ
ㆬᛯ䊌䊤䊧䊦䊂䊷䉺
s S
SS Ȝ( ) argmax Ȝ
ㆡᔕGMMㆬᛯ⠪䈮ኻ䈜䉎ዕᐲ
MR-GMM
差分知覚年齢スコア により知覚年齢を制御
(!
出力平均ベクトルの表現形式を変更する.式(5) で
は,バイアスベクトルは全事前収録目標歌手の平均的
な声質を表現しており,代表ベクトルは知覚年齢の変
化に伴う平均ベクトルの変化を表す.これに対して,
次式の通り,バイアスベクトルを声質制御対象歌手の
平均ベクトルˆμ(Y )
m へと置き換える.
μ(Y )
m (o)
= ˆμY )
m + b(Y )
m Δw (6)
ここで,Δw は声質制御対象歌手の知覚年齢を変化さ
せる差分知覚年齢スコアである.これにより,全事前
収録目標歌手の平均的な声質を中心とした部分空間
ではなく,声質制御対象歌手の声質を中心とした部分
空間により,出力平均ベクトルが表現される.
4 実験的評価
4.1 実験条件
歌唱データとして,AIST ハミングデータベース:
ポピュラー音楽(RWC-MDB-P-2001) 日本語歌詞,
サビパート[5] を用いる.評価楽曲はNo.39 とする.
MR-GMM の学習において,参照歌手として実年齢
が20 代の女性1 名を用い,事前収録目標歌手として
KWV^MZML[QVOQVO^WQKM Fig. 1 指覚年齢
8ZMNMZMVKM[KWZMC
E
Fig. 4.2 1 に知する評価結スコアを表与した知覚の変化量を
- 5. 従来法の問題点と提案する解決法
知覚年齢変換可能範囲が小さい
原因: 知覚年齢のモデル化精度が低い
性別の違いを考慮した変換モデルの構築
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
5
知覚年齢変換歌声の自然性の劣化
原因: Vocoderを用いた波形合成による品質劣化
差分スペクトル補正に基づく歌声声質変換の
変換枠組みを知覚年齢変換に適用[Kobayashi et al., 2014]
- 6. • ㆡᔕ䊂䊷䉺䈮ኻ䈜䉎ዕᐲ䈮ၮ䈨䈐䇮ૃ䈢ჿ⾰䉕ᜬ䈧೨㍳
ㆡᔕ䊂䊷䉺䈮ኻ䈜䉎ዕᐲ䈮ၮ䈨䈐䇮ૃ䈢ჿ⾰䉕ᜬ䈧೨㍳
ജ⠪䈱ㆬᛯ
性別依存MR-GMMの学習
․ቯജ⠪GMM
೨㍳ജ⠪ ജ⠪
話し声における知覚年齢に寄与する音響特徴量の調査
X (1) Y
․ቯജ⠪GMM
ㆡᔕ䊂䊷䉺 Ȝ(1)
母音の平均フォルマント周波数に関する調査 [Linville et al., 2001]
【F1 F2
女性 (若い-老い) 著しく減少著しく減少
男性 (若い-老い) 著しく減少わずかに減少
歌声においても性別間で違いが存在する可能性
男女の違いを考慮し,異なる知覚年齢変換モデルを構築
೨㍳ജ⠪ ജ⠪
Y
X (2) 事前収録Y
目標歌手(女性)
Y X (10)
– – Y
– 精度の高い知覚年齢変動を代表ベクトルによりモデル化可能
ㆡᔕ性別依存
MR-GMM
ജ⠪
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
6
ജ⠪䈱ㆬᛯ
೨㍳ജ⠪ X Xc
Ȝ(2)
X Ȝ(S )
ዕᐲ⸘▚䈮䉋䉍 N ੱ䉕ㆬᛯ
• ㆬᛯ䈘䉏䈢⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMMㆬᛯ䊌䊤䊧䊦䊂䊷䉺
SS Ȝ( ) argmax Ȝ
ㆬᛯ䈘䉏䈢⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩GMM䉕ቇ⠌
Y
Y
X (2)
X (S )
Ȝ(1)
Ȝ(2)
Ȝ(S )
ዕᐲ⸘▚䈮䉋䉍 N ੱ䉕ㆬᛯ
ㆬᛯ䊌䊤䊧䊦䊂䊷䉺
N
s
s S
T
s
t t
t
SS P 1
Ȝ( ) argmax (X ( ) ,Y | Ȝ)
Ȝ
ㆡᔕGMM䈱ቇ⠌
ㆬᛯ⠪䈮ኻ䈜䉎ዕᐲ
性別依存
MR-GMM
事前収録目標歌手(男性)
学習学習
- 8. 修正MR-GMMに変換行列 A を適用
ㆬᛯ䈘䉏䈢⠪䈱䊌䊤䊧䊦䊂䊷䉺䉕↪䈇䈩X (2)
X (S )
GMM䉕ቇ⠌
Y
Y
↵mN
差分特徴量系列
argmax (X ( ) ,Y | Ȝ)
,
αmN
%
μ(X)
↵mN
αmN
%
μ(X)
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
S )
ੱ䉕ㆬᛯ
– –
N
s
s S
T
P s
t 1
t
t
Ȝ
ㆡᔕGMM䈱ቇ⠌
ㆬᛯ⠪䈮ኻ䈜䉎ዕᐲ
䋶䋮ᨵエ䈭䊝䊂䊦᭴▽ᴺ䋺8
修正MR-GMM
修正差分MR-GMMの導出
8
量ベクトルに変換する行列である.
A =
!
I 0
−I I
この行列を式(1)に適用することで,入力特徴量クトルと差分特徴量ベクトルの結合確率密度をモル化する以下のGMM が導出される.
P (Xt,Dt|λ)
=
M#
m=1
$!
Xt
Dt
;
m
μ(D)
m
,
!
Σ(XX)
m Σ(XD)
m
Σ(DX)
m Σ(DD)
m
'
μ(D)
m = μ(Y )
m − μ(X)
m Σ(XD)
m = Σ(DX)
m
⊤ = Σ(XY )
m − Σ(XX)
m Σ(DD)
m = Σ(XX)
m + Σ(Y Y )
m − Σ(XY )
m − Σ(YX)
m このGMM に基づき,最尤系列変換法により静的分特徴量ベクトルを推定する.なお,本稿では,差スペクトル特徴量のGV については考慮しない.
4 実験的評価
実験条件
P
⇣
Y (i)
t ,Y (o)
(MR),t |w, μˆ(Y )
m
⌘
=
MX
m=1
Y (i)
t
Y (o)
t
#
;
ˆμ(Y )
m
ˆμ(Y )
m +b(Y )
m w
#
,
⌃(Y Y )
m ⌃(YXY )
m
⌃(YXY )
m ⌃(Y Y )
m
(!
量ベクトルに変換する行列である.
A =
!
I 0
−I I
(4)
この行列を式(1)に適用することで,入力特徴量ベ
クトルと差分特徴量ベクトルの結合確率密度をモデ
ル化する以下のGMM が導出される.
P (Xt,Dt|λ)
=
M#
m=1
$!
Xt
Dt
;
m
μ(D)
m
,
!
Σ(XX)
m Σ(XD)
m
Σ(DX)
m Σ(DD)
m
'
(5)
μ(D)
m = μ(Y )
m − μ(X)
m (6)
P
⇣
Y (i)
t ,Dt|(MR),w, μˆ(Y )
m
⌘
=
MX
m=1
Y (i)
t
Dt
;
ˆμ(Y )
m
b(Y )
m w
#
,
⌃(Y Y )
m ⌃(DY D)
m
⌃(DY D)
m ⌃(DD)
m
!
修正差分
MR-GMM 知覚年齢変動
修正差分MR-GMMは解析的に導出可能
- 9. 実験環境
知覚年齢変換精度に関する評価
変換歌声の自然性に関するMOSによる評価
SVC (I): 性別非依存MR-GMM + 通常変換
SVC (D): 性別依存MR-GMM + 通常変換
DIFFSVC (D) : 性別依存MR-GMM + 差分変換
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
9
歌声データベースAISTハミングデータベース
サンプリング周波数16 kHz
事前収録目標歌手男性27名,女性27名
評価歌手各年代の男女16名(オープン)
学習データ25曲/人
メルケプストラム24次元 (1st-25th),5周波数帯
GMMの混合数メルケプストラム: 128, 非周期成分: 32
GVの考慮通常変換: 有り,差分変換: 無し
合成フィルタMLSAフィルタ
被験者8名
*STRAIGHT分析 [Kawahara et al., 1999]
- 10. 差分知覚年齢スコアと変換歌声の知覚年齢
性別依存モデルにより知覚年齢変換精度が向上
10
5
0
-5
10
5
0
-5
10
5
0
-5
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
10
-10
-10
-10
-60 -30 0 30 60
Perceived age conversion setting
Difference in perceived age
after conversion
SVC (I)
SVC (D)
DIFFSVC (D)
95% confidence interval
Regression line
差分知覚年齢スコアの設定
変換後の知覚年齢の差分
性別依存モデルの違い: 大きい
差分変換による違い: 小さい
- 11. 自然性に関するMOS評価結果
性別依存モデルと差分変換により自然性が向上
5
4.5
4
3.5
3
2.5
2
1.5
SVC (I)
DIFFSVC (D)
SVC (D)
95% confidence interval
Better
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
11
1
-60 -30 0 30 60
Perceived age conversion setting
Mean opinion score
Natural singing voice
差分知覚年齢スコアの設定
MOS
worse
- 12. サンプル歌声
10
5
age
0
perceived -5
10
5
0
in -5
Difference 10
5
0
-5
Perceived age conversion setting Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
12
-10
-10
-10
-60 -30 0 30 60
after conversion
SVC (I)
SVC (D)
DIFFSVC (D)
95% confidence interval
Regression line
差分知覚年齢スコアの設定
変換後の知覚年齢の差分
- 13. まとめ
Sept. 5, 2014 2014©kazuhiro-k AHC-Lab, IS, NAIST /13
13
個人性を保持した知覚年齢制御の変換精度の向上
– 性別依存モデルによる知覚年齢変換
– 差分スペクトル補正に基づく知覚年齢変換
!
実験結果
性別依存モデルにより知覚年齢変換精度が向上
性別依存モデル + 差分変換により変換歌声の自然性が向上
! 今後の研究
– 適応データ数を減らした際の変換精度の評価
– 年齢変動に影響を与える差分スペクトル特徴量の分析