End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割

End-to-end 韻律推定に向けた
DNN音響モデルに基づく subword 分割
東京大学大学院情報理工学系研究科
☆阿曽真至高道慎之介高宗典玄猿渡洋
日本音響学会
2019年秋季研究発表会 1-4-7

/202
研究背景・問題設定
 タスク：テキスト音声合成のための end-to-end 韻律推定
– 中間表現を用いずにテキストから直接的にF0系列を推定
– アクセントラベル等の言語知識を使わず音声合成が可能
– 前処理としてテキスト分割が必要
 問題設定：end-to-end 韻律推定に最適なテキスト分割とは？
End-to-end 韻律推定と
テキスト処理
Language
units
Text
？？？？
東京都に住む東京都に住む
Intermediate
representation
Text
F0 seq.
従来の音声合成
F0 seq.

/20
テキスト分割の影響と subword 単位の分割
3
 テキスト分割の影響
– 文字単位：F0を捉えることが困難
– 単語単位：未知語・低頻出単語が発生しやすい
 Subword (部分文字列) 単位の分割 [Akiyama+18]
– 文字単位や単語単位の問題点を緩和
– 韻律推定にも関わらず言語モデル尤度に基づく subword 分割
[Kudo18]
東京オリンピック東京オリンピック東京オリンピック
Prosody
Character level
(e.g. original Tacotron) Word levelSubword level
Capture suprasegmental feats?
Avoid sparsity problem?
No. Yes.
Yes. No.
“東京オリンピック”
Seq2seq DNN
Input text
Seq2seq DNN Seq2seq DNN
Prosody Prosody

/20
発表概要
 従来法：言語モデルに基づく subword 分割
– 言語モデル尤度 (subword の出現頻度) に基づく subword 分割は，
韻律推定には最適ではない
 提案法：DNN音響モデルに基づく subword 分割
– 音響モデル尤度 (F0系列の推定誤差) に基づく subword 分割は，
韻律推定に最適である
– 以前の研究 [阿曽+19] ではEMアルゴリズムによるDNN学習法を提案
– 本研究では subword vocabulary 構築法を提案
 実験結果
– 音響モデル尤度の改善を確認
4
EM: expectation-maximization
DNN: deep neural network
[Kudo18]

/205
 言語モデル
– Subword の出現頻度を利用
 言語モデルに基づく学習・分割
– 学習：言語モデル尤度を最大化する，とを推定
– 分割：言語モデルに基づき，尤もらしい subword 分割を推定
[Kudo18]
従来法：言語モデルに基づく subword 分割
Subword
Sentence
Segmentation
candidate 京都に
京都
東京住む
東住む
東京都住
にむ東京
Subword
vocab.
Unigram
prob.

/20
従来法の言語モデル
 隠れ変数を，出力確率をとするHMM
 言語モデル尤度
– 出力確率を用い表されるの尤度
6
HMM: hidden Markov model
Subword
Sentence
Segmentation
candidate 京都に
京都
東京住む
東住む
東京都住
にむ東京
Subword
vocab.
Unigram
prob.

/20
学習ステップ
 言語モデル尤度を最大化する，とを推定
– 十分に大きな seed vocab. を用意
– 以下の二つのステップをが所望のサイズになるまで反復
• パラメータ推定：を固定した下で, の推定
• Subword 削除：推定されたを用い, から subword を削除
7
Subword
Sentence
Segmentation
candidate 京都に
京都
東京住む
東住む
東京都住
にむ東京
Subword
vocab.
Unigram
prob.

/20
学習ステップ：パラメータ推定
8
 を固定した下で, の推定
– 言語モデル尤度を最大化するように推定
– EMアルゴリズムを利用可能
• E-stepではを計算
• M-stepではを推定

Subword
Sentence
Segmentation
candidate 京都に
京都
東京住む
東住む
東京都住
にむ東京
Subword
vocab.
Unigram
prob.

/20
学習ステップ：subword 削除
9
 推定されたを用い, から subword を削除
– Subword を削除した時の言語モデル尤度の損失を計算
– の計算にはE-stepを利用
– 損失が小さい subword を削除
Subword
Sentence
Segmentation
candidate 京都に
京都
東京住む
東住む
東京都住
にむ東京
Subword
vocab.
Unigram
prob.

/20
分割ステップ
 言語モデルに基づき，尤もらしい分割を推定
– は推定されたを用いて表される事後確率を最大化
– Viterbi アルゴリズムにより推定
10
Subword
Sentence
Segmentation
candidate 京都に
京都
東京住む
東住む
東京都住
にむ東京
Subword
vocab.
Unigram
prob.
Viterbi path

提案法
DNN音響モデルに基づく
subword 分割

/20
提案法：音響モデルに基づく subword 分割
12
 音響モデル
– パラメータを持つ韻律推定DNNの推定誤差を利用
 音響モデルに基づく学習・分割
– 学習：音響モデル尤度を最大化する，とを推定
– 分割：音響モデルに基づき，尤もらしい subword 分割を推定
Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京都に
京都
東京住む
東住む
DNN
東京都住
にむ東京
Subword
vocab.

/20
提案法の音響モデル [阿曽+19]
13
 隠れ変数を，出力確率を以下の確率とするHMM
 音響モデル尤度
– 出力確率を用い表されるが与えられた下でのの尤度
Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京都に
京都
東京住む
東住む
DNN
東京都住
にむ東京
Subword
vocab.
分散共分散行列正規分布

/20
学習ステップ
 音響モデル尤度を最大化する，とを推定
– 十分に大きな seed vocab. を用意
– 以下の二つのステップをが所望のサイズになるまで反復
• パラメータ推定：を固定した下で, の推定 [阿曽+19]
• Subword 削除：推定されたを用い, から subword を削除
14
Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京都に
京都
東京住む
東住む
DNN
東京都住
にむ東京
Subword
vocab.

/20
学習ステップ：パラメータ推定 [阿曽+19]
15
 を固定した下で, の推定
– 音響モデル尤度を最大化するように推定
– EMアルゴリズムを利用可能
• E-stepではを計算
• M-stepではを推定

Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京都に
京都
東京住む
東住む
DNN
東京都住
にむ東京
Subword
vocab.

/20
学習ステップ：subword の削除
16
 推定されたを用い, から subword を削除
– Subword を削除した時の音響モデル尤度の損失を計算
– の計算にはE-stepを利用
– 損失が小さい subword を削除
Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京都に
京都
東京住む
東住む
DNN
東京都住
にむ東京
Subword
vocab.

/20
分割ステップ
 音響モデルに基づき，尤もらしい分割を推定
– は従来法と同様にを用いて表される事後確率を最大化
– Viterbi アルゴリズムにより推定
– として学習データに対する出力確率の平均を利用
17
Subword
Sentence
Segmentation
candidate
F0 envelope
F0 seq.
京都に
京都
東京住む
東住む
DNN
東京都住
にむ東京
Subword
vocab.
Viterbi path

/2018
実験条件
項目値／設定
日本語コーパス JSUT [Sonobe+17], JNAS [Ito+99]
学習／テストデータ 18,905 文／2,101 文
DNNの構成 Feed-Forward (see our paper.)
F0 の包絡成分
64 点にリサンプリングした後，離散コサ
イン変換の１次から 10 次までの成分を
抽出 [Ijima+17]
Subword vocab. の初期値
Enhanced suffix array [Abouelhoda+04] によ
り作られた13,585 語の subword
最終的な vocab. size 4,000 語のsubword
言語モデル Sentencepiece [Kudo18]
EMアルゴリズムの
反復回数
30 回
M-step Mini-batch 学習 (サイズ: 1,000 文), 30 回

/20
音響モデル尤度の比較
19
学習手法
パラメータ
推定
言語モデル
[Kudo18]
音響モデル
(ours)
音響モデル
(ours)
Subword
削除
言語モデル
[Kudo18]
言語モデル
[Kudo18]
音響モデル
(ours)
学習データ -1145 -1141 -1059
テストデータ -1152 -1131 -1077
音響モデル尤度の改善を確認
 異なる方法で学習された，とを用いて音響モデル尤度を比較
– 音響モデル尤度は
– 提案法では，音響モデル尤度を最大化するように学習
– パラメータ推定と subword 削除それぞれのステップについて比較
– 一文あたりの音響モデル対数尤度を比較
GoodBad

/2020
まとめと今後の予定
 背景
– End-to-end 韻律推定に適した subword 分割を行いたい
 提案法
– 音響モデル尤度に基づく subword 分割アルゴリズムの提案
– Subword 削除にも音響モデル尤度を使用
– 音響モデル尤度に基づき subword vocabulary を構築
 実験結果
– 音響モデル尤度の改善を確認
 今後の予定
– 音声合成における評価

/20
学習曲線の収束性 [阿曽+19]
22
実験的収束性を確認

/20
Subword の品詞構成の比較
 特定の品詞から構成される subword の個数を比較
– 各モデルにより学習された subword vocab. と出力確率を使用
– テストデータの文を subword 分割
– 品詞は MeCab [Kudo+04] により推定
– Subword vocab. size は 8,000 語
23
音響モデルでは，助詞が他の品詞に結びつきやすい
品詞の構成言語モデル [Kudo18] 音響モデル
名詞＋助詞 918 1,142
助詞＋名詞 1,097 1,454
動詞＋助詞 1,590 1,941
助詞＋動詞 1,736 2,108

End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (13)

Mais de Shinnosuke Takamichi

Mais de Shinnosuke Takamichi (20)

Último

Último (12)

End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割