1. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Jun. 19, 2020
橘 健太郎
DeNA Co., Ltd.
ICASSP2020音声&音響読み会
MELLOTRON: MULTISPEAKER EXPRESSIVE VOICE SYNTHESIS BY
CONDITIONING ON RHYTHM, PITCH AND GLOBAL STYLE TOKENS
2. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
名前
⁃ 橘 健太郎
略歴
⁃ 2008年 奈良先端大学院大学修士卒
⁃ 2008年〜17年 東芝 研究開発センター
⁃ 2014年〜17年9月 情報通信研究機構(NICT)出向
⁃ 2017年10月〜 DeNA
専門分野
⁃ 音声変換・音声合成
https://twitter.com/KentaroTachiba
https://www.slideshare.net/KentaroTachibana1
3. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
紹介論文
MELLOTRON: MULTISPEAKER EXPRESSIVE VOICE SYNTHESIS BY CONDITIONING ON
RHYTHM, PITCH AND GLOBAL STYLE TOKENS
⁃ Rafael Valle, Jason Li, Ryan Prenger, Bryan Catanzaro (NVIDIA Corporation)
概要
⁃ End-to-end 音声合成の亜種。純粋なTTSでは無い
⁃ Attentionを用いたencoder-decoder型のアルゴリズムTacotron2の派生
⁃ テキストに加え、参照音声も入力することで、表現力が向上!
⁃ 学習データが読み上げ音声だけでも感情合成、歌声合成が可能
⁃ これらを複数話者で実現
4. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
紹介論文の概要
従来の音声合成
⁃ 読み上げ音声合成
• テキスト入力
• 学習データ:読み上げ音声
⁃ 感情音声合成
• テキスト入力
• 学習データ:感情音声
⁃ 歌声合成
• MusicXML or MIDI入力
• 学習データ:歌声
• Mellotron
• 読み上げ、感情、歌声合成
• テキスト or musciXML入力 + 参照音声
• 学習データ:読み上げ音声
従来の音声合成を内包するようなシステム
5. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
音声合成 (Text-to-speech; TTS) とは?
テキストを音声に変換する技術
任意のテキストを所望の声質で音声を生成できる
TTS今日もいい天気だね
音声波形テキスト
7. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Tacotron1, 2
Encoder-decoder型のend-to-end 音声合成
⁃ 可変長の入力系列と出力系列を学習アルゴリズム(seq2seqとも呼ばれる)
⁃ 明示的なalignmentが不要
Tacotron関連論文
⁃ Tacotron: Towards End-to-End Speech Synthesis [Wang+, 2017]
⁃ Tacotron2: Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Prediction
⁃ Tacotron2 GST [Skerry-Ryan+, 2018] 、Mellotronなど派生手法が提案されている
特にTacotron2は非常に高品質で、人間と同レベルの品質を達成している
MellotronのベースともなっているTacotron2とTacotron2 GSTについて取り上げる
8. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Tacotron2の概要
テキストからmel-spectrogramへの変換、mel-spectrogramから音声波形へは別々に
学習
Embedding
Encoder
Attention
layer
Decoder
Hello, everyone!
WaveNet
vocoder
Mel-spectrogram
9. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Tacotron2
学習時
5 Conv Layer
Post-Net
2 Layer
Pre-Net
2 LSTM
Layers
Location
Sensitive
Attention
Stop Token
WaveNet
MoL
Waveform
Samples
Linear
Projection
Linear
Projection
Input Text
Character
Embedding
3 Conv
Layers
Bidirectional
LSTM
Text embedding
文字数
Mel-spec.
終了位置を
示す
Predicted
MSE loss
Gate loss
1時刻前の
mel-spec.の
embedding
Attetion
Decoder
Encoder
Embedding
Hello, everyone!
1frameずつ生成
10. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Decoder + attention
1時刻前のmel-spec.と文字列系列のembeddingから次のmel-spec.を予測
生成mel-spec.が文字系列のどこを注視しているか
各文字列の継続長が分かる
Attention map
1時刻ごとに
生成
出力mel-spec.系列 [frame]
入力文字系列[文字数]
11. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Tacotron 2 GST
Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech
Synthesis Training [Wang+, 2018]
話速、styleを制御するため、Style tokenを導入
Audio-book読み上げなど表現力を伴う応用に対応することが目的
音声から表現空間をdata drivenで自動学習
推論時は、参照音声もしくはstyle空間からサンプルすることでstyleを獲得できる
Melspec.
12. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Mellotron
Tacotron2 GSTの課題
⁃ Style空間を自動獲得するため、制御粒度が粗い
⁃ Styleの任意で指定できない
Mellotronの目的
⁃ 緻密な制御により表現力向上を目指す
手法
⁃ Tacotron 2 GSTにprosody情報を追加することで、より緻密なrhythmやpitch制御を実現する
⁃ 読み上げ音声からでも、感情音声や歌声合成が可能に!
13. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Mellotron: 入力
参照音声の韻律を元に緻密に韻律を実現
Mellotron
Text
Speaker id
Pitch contour
Mel-spectrogram
1
Hello, everyone!
発話:Hello, everyone!
声質:Speker id2
韻律:入力韻律
Style:入力mel-spec.
14. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Mellotron: 全体構成
Speaker id、F0、mel-spec.を与えることで、明示的に制御する
5 Conv Layer
Post-Net
2 Layer
Pre-Net
2 LSTM
Layers
Location
Sensitive
Attention
Ref: https://tosaka-mn.hatenablog.com/entry/2020/04/29/160050
Stop Token
WaveGlow
Waveform
Samples
Linear
Projection
Linear
Projection
Input Text
Character
Embedding
3 Conv
Layers
Bidirectional
LSTM
1 Layer
F0 Pre-Net
Speaker
Embedding
F0
Speaker id
Reference
Encoder
Mel-
spectrogram
Attention
: Tacotron 2 GSTで追加
: Mellotronで追加
Style embedding
Speaker embedding
Text embedding
文字数
Mel-spec.
15. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Mellotron: 推論 (1/2)
参照音声のみからでも音声生成が可能!
Mellotron
Speaker id
1
F0 extractor
ASR Hello, everyone!
作成したattention mapを入力することで、
rhythmも制御
16. Copyright (C) 2020 DeNA Co.,Ltd. All Rights Reserved.
Mellotron: 推論 (2/2)
MusicXML入力も可能
⁃ XML形式で書かれた楽譜フォーマット(MIDIのようなもの)
⁃ 歌詞、声の高さ、長さ、強弱といった情報が含まれる
MusicXML
Hello, everyone!
Mellotron
Speaker id
1
Pitch contour
Attention map