ここまで来た＆これから来る音声合成 (明治大学先端メディアコロキウム)

01/27/2021©Shinnosuke Takamichi,
The University of Tokyo
先端メディアコロキウム＠明治大学
ここまで来た＆これから来る音声合成
高道慎之介 (東京大学)

/34
自己紹介
2
経歴
専門
名前
高道慎之介 (たかみちしんのすけ)
熊本高専(熊本)→長岡技大(新潟)→
奈良先端大(奈良)
音声情報処理
現職
東京大学情報理工学系研究科助教

3
今日の内容
ここまで来た＆これから来る音声合成
何をできるように
なったのか？
何を研究
しているのか？

ここまで来た音声合成
4

/34
音声とは
➢ 物理信号である
– 肺からの呼気を声帯と声道で制御
– 空気中や通信回路を介して利き手に伝播
➢ 情報を伝達・享受する手段である
– 話し手は，コンセプト(言語・意図など)を音声にエンコード
– 聞き手は，音声からコンセプトをデコード
➢ 個人情報である
– 言語性 (氏名，住所，…)
– 話者性・文化性・身体性 …
5
音声は，物理世界と情報世界をまたぐメディアである．

/34
(広義の)音声合成が目指すもの
6

/34
音声合成バーチャルアナウンサー
7
20200101 TBSテレビ「令和も見せます！森田さんのニッポンの初日の出」
[Koguchi20 (現在，森勢研M1)]
* 製作者から許諾を得て利用しております
公開版につき内容を削除しました

/34
リアルタイム音声変換
(名探偵コナンの蝶ネクタイ型変声機)
8
https://www.youtube.com/watch?v=P9rGqoYnfCg
更に… https://www.youtube.com/watch?v=vFSHxn_G2iQ
[Arakawa19][Saeki20]
* 製作者から許諾を得て利用しております

/34
なぜ出来るようになった？
➢ 基本的な仕組み
– テキスト・音声データの対を用意
– その対応関係を機械学習 (深層学習)
➢ なぜ出来るようになった？
– 共有資源としての音声資源創出 (後述)
– 深層学習技術の発達 (本講義では省略)
9
Text 機械学習
機械学習

これから来る音声合成
10

/34
音声なりすまし
➢ 音声なりすましとは
– 音声で他人になりすますセキュリティ攻撃
– 電話口で実在人物になりすまし，不当な利益を得るなど
➢ なぜ起こる？
– (有名人などは) 動画サイトに大量の音声データがある
– そのデータを使って音声合成 … 音声合成に無関係の話ではない
➢ 身近なところでは起こらない？ -> No.
– スマートスピーカの利用 [Nakamura19]
12

/34
話者 verification-to-synthesis (V2S) 攻撃
13
音声なりすまし
音声で個人認証話者認証を暴露
変換
[Nakamura19]
➢ スマートスピーカにおける話者認証 (話者認識)
– スマートスピーカの中に音声データは保存されない
– 音声から話者を推定する話者認証機能がある
➢ 話者 V2S 攻撃
– 音声ではなく話者認証から，その人の声になる音声変換はできて
しまうのか？
“〇〇さん
こんにちは！”

/34
V2S攻撃における音声変換の学習
14
音声変換の目的関数 = 話者性の復元関数＋内容の保存関数
変換側(攻撃側) 認証側
攻撃対象話者の
話者ラベル
話者認証モデル
Mean squared
error
音声変換モデル
音声認識
モデル
音素事後確率
Softmax
cross-entropy
変換前後で発話内容を保存
攻撃対象話者の話者性を復元
攻撃者の
音声特徴量

/34
結果
➢ 変換音声の品質
– 本人の少量 (~1分) の音声データを入手した音声変換と同程度
– 本人の実際の音声とはやや異なるのが現状
➢ 今後はどう進む？
– 防御側も当然研究されている
• 人間の音声 or 人工音声？
• 人間の音声 or 録音音声？
– しばらくはいたちごっこが続く
15
変換
本人の音声 V2S攻撃少量の音声を入手した
通常の音声変換

音声の非実在性のモデリング
16

/34
音声の非実在性
➢ 人間が許容できるメディアは実在データだけか？ -> No.
– 人間はメディアの逸脱に対して許容範囲を持つ
• 例：ボイスチェンジャで非実在の音声を作っても，人格を認める
• 例：発音が多少訛っていても，内容を聞き取れる
– この許容範囲 (知覚分布) を計算機でモデル化できないか？
• 実在しない音声をもつ音声エージェントなど
➢ ヒント：GAN (敵対的生成ネットワーク) [Goodfellow14]
– 実在データ分布を表現するDNN
– 実在データと生成データを識別する識別器を騙して学習
• “人工知能が絵を描いた！”
17
人間を騙せば，知覚分布を表現するDNNを作るのでは？

/34
GANと人間GAN
18
Prior
distr.
Generated
data
Generator Discriminator
Natu-
ral
Train to fool computer-based
discriminator.
GAN
Training
Distribution of training data
Generation
Crowdworkers
Natu-
ral
Train to fool crowdworkers
(= crowd-based discriminator).
HumanGAN
Training
Distribution of human perception
Generation
[Fujii20]

/34
GAN：DNNで記述される識別器を騙す
19
Natural
Generated
⋯
⋯
⋯
⋯
Generator
Generated
Discri-
minator
Prior
distr.
生成モデルも識別モデルも微分可能なので，
backpropagation で学習可能
[Goodfellow14]

/34
人間の知覚する話者性(明るいほど「人間らし
い声」と主観的に評価された合成音声)
20
1st dim. of speech feature
2nd
dim.
of
speech
feature
実在音声の分布
(GANで表現可能)
知覚分布
(GANで表現不可．
人が評価しないと
分からない)
生成モデルは微分可能だが識別モデル (=人間) は微分不可能．
どうやって生成モデルを学習する？

/34
人間を「事後確率差分を出力するblack-box」と
みなし，勾配を近似
21
生成データに微少な摂動を加え，摂動の影響を人間に評価させる．
それらの比で勾配を近似して生成モデルを学習
[Fujii20]

/34
人間GAN：人間で記述される識別器を騙す
22
⋯
⋯
⋯
⋯
Generator
Generated
Prior
distr.
Crowdworkers
* 学習時にカラーマップを使用しないことに注意
人間を微分してDNNを学習できるようになった！
[Fujii20]

/34
Speech chain (ことばの鎖)
24
* 図引用元：“話しことばの科学その物理学と生物学,” 東京大学出版社, 1966.
話し手の音声は自身にフィードバック (自己聴取) され
音声聴取と生成の相互作用が起こる

/34
Computational speech chain (SCOPE 2019~)
25
音声聴取
音声生成
リアルタイム
音声変換
高没入感
フィードバック
自己聴取音を制御して，人間の音声生成を制御できる？
人間参加
機械学習

/34
我々は何までならなれる？
26
公開版につき内容を削除しました

アバター共生社会の音声合成
27

/34
内閣府ムーンショット目標1「2050年までに、人が身体、
脳、空間、時間の制約から解放された社会を実現」
28
* 図引用元：https://www.jst.go.jp/moonshot/program/goal1/files/goal1_explanation1.pdf

/34
音声合成は何ができるか？
➢ 人間を中心とした音声合成技術
– いかに手軽に音声コピーを作れるか
– 信頼できる不確実性をもった音声合成
– さらにさらに本人らしく
➢ アバターを中心とした音声合成技術
– アバターの中の人への没入
– 非実在性音声の実現
– 音声コミュニケーションの半自動化
29
数年かけてやっていくので，お楽しみに！

共通資源としての音声
30

/34
音声合成が発達したのは音声資源のおかげ
➢ なぜ音声合成が出来るようになった？ (再掲)
– 共有資源としての音声資源(音声データ)創出
➢ 音声合成ができないことは多々ある
– 「少数言語のテキスト読み上げ」の品質が人間と同程度なだけ
– 人間の代替を目的としてもまだまだ
➢ 音声は石油である
– “Data is the new oil”．音声研究者にとって “データ＝音声”．
– 音声の分野では，音声資源に特化した国際会議もあるくらい
– 音声の献血 (献声？) のようなプロジェクトもあるのでぜひ．
• 口から油を垂れ流すのはもったいない！
31

/34
いまから始める音声合成
➢ 日本語音声合成・音声変換用データ
– JSUTコーパス (“JUST”ではない) … 単一話者読み上げ10時間
– JSSSコーパス … 単一話者ニュース8時間
– JVSコーパス … 100人話者読み上げ30時間
• ググればダウンロードできます！
• Qiita, github にもいくつか記事がある
➢ ツール
– nnmnkwii (LINE 山本氏)
– ESPNet (CMU 渡部氏)
32
音声合成初心者でもすぐ試せるよう整備を進めております

/34
まとめ
➢ ここまで来た音声合成
– AIアバター
– リアルタイムなりきりボイスチェンジャ
➢ これから来る音声合成
– 音声なりすましとの闘い
– 人間参加型
– 音声VR
– アバター共生社会
➢ Take-home メッセージ
– 音声合成は，やっと他分野と複合できるくらいの品質になってきた
– “音声合成=テキスト読み上げ”，”音声変換=蝶ネクタイ型変声器”の
言葉に呪われない，多様な利用を期待します．
34

ここまで来た＆これから来る音声合成 (明治大学先端メディアコロキウム)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Mais de Shinnosuke Takamichi

Mais de Shinnosuke Takamichi (20)

Último

Último (11)