NIPS2017報告 SPEECH & AUDIO

Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017報告
SPEECH & AUDIO
株式会社ディー・エヌ・エー
AIシステム部 AI研究開発グループ
森紘一郎

自己紹介
 森紘一郎
 経歴
⁃ 2005年株式会社東芝研究開発センター
機械学習、データマイニング、音声合成（7年くらい）
⁃ 2017年株式会社ディー・エヌ・エー
DEEP LEARNING（音声、コンピュータビジョン）
 プライベート
⁃ Twitter: aidiary (@sylvan5)
⁃ ブログ: 人工知能に関する断創録（2002〜）
⁃ http://aidiary.hatenablog.com/
⁃ 最近はマルチモーダルなDEEP LEARNINGに興味あり
2

発表の流れ
 音とDEEP LEARNING
⁃ 音や声の表現方法とDEEP LEARNINGでの扱い方
 「音」関連研究のタスク分類とNIPS2017での傾向と概要
⁃ 本会議
⁃ ワークショップ
• Machine Learning for Audio Signal Processing
• Machine Learning for Creativity and Design
 NIPS2017の「音」関連論文を2本紹介
⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech
⁃ Imaginary soundscape: cross-modal approach to
generate pseudo sound environments
 おわりに
3

音の表現 (1) 波形
 波形（raw waveform）
⁃ 音の波形は1次元時系列データとみなせる
⁃ 44.1kHz = 1秒間に44100個のサンプル点から成る
⁃ 16bit = 各サンプルが-32768〜32767の値を取る
4
https://deepmind.com/blog/wavenet-generative-model-raw-audio/

「画像」だけでなく「音」にもCNNが使える
5
W. Dai et al.
Very Deep Convolutional Neural Networks for Raw
Waveforms,
ICASSP 2017.
16kHzの音声だと
約2秒の音声
カーネルサイズ: 80
フィルタ数: 256
カーネルサイズ: 3
フィルタ数: 256
音声波形は1次元の時系列データ
Conv2dではなく
Conv1dを使う

音の表現 (2) メルスペクトログラム
 メルスペクトログラム（mel spectrogram)
⁃ 波形に対してSTFT（短時間フーリエ変換）を適用
⁃ 人の聴覚知覚に合うように周波数軸をメルスケールに変換
⁃ 横軸が時間、縦軸が周波数の2次元データとして表せる
6
時間（単位: フレーム）
周波数（メルスケール）
Audio features for web-based ML
https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae

DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (1)
7
 Convolutional Neural Network（CNN）
⁃ Conv1D or Conv2D
⁃ メルスペクトログラムを2次元の画像とみなす
⁃ カーネルのサイズはさまざま
3
3
3
3
1
3
1

DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (2)
 Recurrent Neural Network（RNN）
⁃ メルスペクトログラムを1次元ベクトルの時系列データとみなす
⁃ 文章を埋め込み単語ベクトルの系列とみなすのと似ている
⁃ 系列長が長くなりRNNで学習できない
8

Convolutional Recurrent Neural Network (CRNN) = CNN + RNN
9
K. Choi et al.
Convolutional Recurrent Neural Networks for Music Classification,
ICASSP 2017.
メルスペクトログラム
Conv2D

NIPS2017の「音」関連研究の概要 (1)
10
Speech Audio Music
認識
Speech Recognition
Speech Emotion Recognition
Gender/Age Recognition
Speaker Identification
Language Identification
Audio Classification
Environmental Sound Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Emotional Speech Synthesis
Singing Voice Synthesis
Voice Conversion
Environmental Sound Generation
Audio Style Transfer
Music Generation
Music Style Transfer
検出
Voice Activity Detection
Keyword Spotting
Singing Voice Detection
Audio Event Detection Melody Tracking
Beat Tracking
BGM detection
その他
Speech Enhancement
Sound Source Separation
Singing Voice Separation
Noise Reduction
Sound Representation Music Information Retrieval
Music Recommendation
Hit prediction
赤: 本会議
緑: ワークショップ

11
Speech Audio Music
認識
Speech Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Voice Conversion
Music Generation
検出
Keyword Spotting
Beat Tracking
BGM detection
その他
Speech Enhancement
Noise Reduction
Hit prediction
Analyzing Hidden Representations in End-to-
End Automatic Speech Recognition
End-to-end音声認識における内部表現の可視化
音声からテキストへのマッピングを直接学習
従来の「音素」という概念は隠れ層のどこかでモデ
ル化されているのだろうか？
低レイヤで音素がモデル化されていることを確認！
Deep Voice 2
End-to-end音声合成において話者の埋め込みベクトル
を用いることで1つのニューラルネットから複数話者
の音声を合成することに成功！
Uncovering Latent Style Factors for
Expressive Speech Synthesis
Tacotronに潜在変数を導入して韻律スタイルを制御で
きるように拡張。スタイルは教師なしで学習するた
め人による解釈は必要
赤: 本会議

12
Speech Audio Music
認識
Speech Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Voice Conversion
Music Generation
検出
Keyword Spotting
Beat Tracking
BGM detection
その他
Speech Enhancement
Noise Reduction
Hit prediction
Utilizing Domain Knowledge in End-to-End
Audio Processing
波形からメルスペクトログラムへ変換する高速な
CNNネットワークを提案
Raw Waveform based Audio Classification
Using Sample Level CNN Architecture
音声認識、楽曲分類、環境音分類の3つのタスクにお
いて波形入力のCNNアーキテクチャでSOTAに近い精
度が出た
Imaginary Soundcape
景色のシーン画像を入力するとそのシーンに適した
音声を再生するシステムを提案。
NELS: Never Ending Learner of Sounds
YouTubeから動画をクローリングして半教師あり学習
の枠組みで600以上の音声クラスにインデキシングす
るシステムを提案
赤: 本会議

13
Speech Audio Music
認識
Speech Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Voice Conversion
Music Generation
検出
Keyword Spotting
Beat Tracking
BGM detection
その他
Speech Enhancement
Noise Reduction
Hit prediction
End-to-end learning for music audio tagging
at scale
Pandoraの120万曲の大規模データを使って楽曲タギ
ングの実験。入力が波形とメルスペクトログラムの
どちらがよいかを比較実験
Neural Translation of Music Style
楽譜を入力として音楽ジャンルのスタイル（ダイナ
ミクス）を出力するGenreNetを提案
赤: 本会議

SPEECH & SOUND @ NIPS2017
 本会議
⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech
 WORKSHOP - Machine Learning for Creativity and Design
⁃ Imaginary soundscape: cross-modal approach to generate
pseudo sound environments
14
SPEECH
AUDIO

Deep Voice 2: Multi-Speaker Neural Text-to-Speech
S. O. Arik, G. Diamos, A. Gibiansky, J. Miller, K. Peng, W. Ping, J. Raiman and Y. Zhou
Baidu Silicon Valley Artificial Intelligence Lab
15

DeepVoice1(Baidu) （音声合成の主要モジュールを
すべてNNに置き換えよう！）
音声合成の主要モジュールと主な音声合成アーキテクチャ
16
テキス
ト解析
テキスト
言語
特徴量
合成音声
音響
モデル
ボコーダー
音響
特徴量
F0（音の高さ）
時間長（音の長さ）
メルケプストラム（声の個人性、音韻）
周期非周期性指標（声のかすれ具合）
音素、トライフォン（しゃべる内容）
アクセント型
品詞
文章中での位置
Char2Wav
（人手の言語特徴量を排除しよう！）
WaveNet(Google)
（人手の音響特徴量を排除しよう！）
WaveNet vocoder
Tacotron(Google)
（人手の言語特徴量も音響特徴量を排除しよう！
真のEnd-to-End音声合成を目指すのだ！）
J. Sotelo et al.
Char2Wav: End-to-end speech synthesis,
ICLR 2017
Y. Wang et al.
Tacotron: Towards End-to-End Speech Synthesis,
Interspeech 2017
A. Oord et al.
WaveNet: A Generative Model for Raw Audio,
arXiv:1609.03499
S. O. Arik et al.
Deep Voice: Real-time Neural Text-to-speech,
ICML 2017

 複数話者モデルへの拡張
⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの
（ニューラルネットワーク）モデルから複数話者の音声を合成でき
るようにした！
 比較手法として Tacotron（Google）を拡張した！
⁃ ボコーダーにWaveNetを導入
⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に
Deep Voice2 の貢献
17

Single-speaker model と Multi-speaker model (1/2)
18
Aさんの
収録音声
Bさんの
収録音声
Aさん
モデル
Bさん
モデル
Aさんの合成音声
Bさんの合成音声
各話者で独立したニューラルネットのモデルを
学習する必要があるため話者ごとに大量の音声を
収録しないといけない
テキスト（例）これはテストです。
テキスト（例）これはテストです。

Single-speaker model と Multi-speaker model (2/2)
19
Aさんの
収録音声
Bさんの
収録音声
複数
話者
モデル
Aさんの合成音声
Bさんの合成音声
複数話者の音声を使うことでモデルパラメータを
共有できるため各話者の音声は少量でもOK
テキスト + Aさんの埋め込みベクトル
テキスト + Bさんの埋め込みベクトル
話者の埋め込みベクトルを入力することで
1つのモデルで異なる話者の音声を合成できる
（モデルとともに訓練される！）

DeepVoice2の全体構成
20
RNNの
初期値に
使用
入力を拡張
Embeddingも
BPによる学習対象
RNNの
初期値
正規化されている
出力をF0に戻す
有声・無声の判定
SpeakerのEmbeddingを
どこにどのように入れるかが
複数話者化のキー！
Duration（音素の長さ）を予測するネットワーク F0（声の高さ）を予測するネットワーク
声の高さ
音素の長さ
音素系列音素系列
話者
この3つがそれぞれ独立したニューラルネット

Speech synthesis (Vocal) model (from DeepVoice1)
21
F0（声の高さ）音声サンプル（自己回帰入力）
Speaker
DeepVoiceのVocoderはWaveNetの亜種
音声サンプル
言語特徴量もここから入力
話者

 複数話者モデルへの拡張
⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの
（ニューラルネットワーク）モデルから複数話者の音声を合成でき
るようにした！
 比較手法として Tacotron（Google）を拡張した！
⁃ ボコーダーにWaveNetを導入
⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に
Deep Voice2 の貢献
22

Tacotron も複数話者対応モデルに拡張
23
TacotronはEncoder-Decoder型の音声合成手法
入力は文字で出力はスペクトログラム
入力は文字
最終出力は
スペクトログラム
Tacotronによる
合成音声
WaveNet
による合成音声
Speaker
Embedding
メルスペクトログラム

実験結果
24
MOS (Mean Opinion Score)
合成音声の品質の主観評価（1-5点）
話者の分類精度
Inception Score っぽい指標
原音で学習した話者分類モデル（CNN)で
合成音声の話者を正しく分類できるか？
108話者
各話者400発話
477話者
各話者30分

まとめ
25
DeepVoice1
DeepVoice2
Tacotron
DeepVoice3
Baidu Google
音声合成の個別モジュールを
すべてニューラルネットに
置き換え
1つのモデルで
複数話者に対応
Tacotron’
WaveNet導入
Tacotron’’
1つのモデルで
複数話者に対応
結論：DeepVoice2はTacotron’’より合成音声の品質がよい！
GOOD!!!
End-to-EndのTTS
Tactron2
W. Ping et al.
Deep Voice 3: 2000-Speaker Neural Text-to-
Speech,
arXiv:1710.07654 submitted to ICLR 2018
J. Shen et al.
Neural TTS Synthesisby Conditioning WaveNet on Mel Spectrogram
Predictions,
arXiv:1712.05884 submitted to ICASSP 2018

Imaginary soundscape: cross-modal approach to generate
pseudo sound environments
Y. Kajihara, S. Dozono and N. Tokui
Qosmo inc. & The Univ. of Tokyo
26
create with AI
http://createwith.ai/

Imaginary Soundscape の貢献
 シーンの画像を入力するとそのシーンの（疑似）環境音
（Soundscape）を再生するシステムを作った！
 Google Street Viewの街中探検で音まで聞こえてくる！
 シーン画像と環境音のマルチモーダル技術
27
http://imaginarysoundscape.qosmo.jp/

画像と音のマルチモーダル
28
 マルチモーダルDEEP LEARNING
⁃ 異なるモーダル（画像と音声）を同じ潜在空間に写像する
⁃ 画像をVisual CNNで特徴量に変換
⁃ 音声をAudio CNNで同じ潜在空間の特徴量に変換
⁃ 画像と音声の間で距離（KL-divergence）を求められる！
SoundNet

SoundNet: 音の深層表現を学習済みの画像分類モデルから学習
29
音声波形入力
（1次元時系列）
Conv1D
Global
Average
Pooling
1000次元
401次元
1401次元
最終的に音の深層表現として出力層ではなく
隠れ層の出力を用いる
Teacher Model
Student Model
Flickrからタグ検索して200万ビデオを収集
ここから画像と音声のペアを抽出
（例）Beach, Forest, Club, Engine
画像入力
Y. Aytar et al.
SoundNet: Learning Sound Representations from Unlabeled Video,
NIPS 2016.
Image Networkの出力分布と
Sound Networkの出力分布が
近くなるようにパラメータを学習

SoundNet の実験結果
30
SoundNetで抽出した音声特徴量を
用いて50カテゴリの環境音認識タスクを
評価したらSOTAの精度を達成できた！

まとめ
31
ImageNetではなく
Places365のデータセット（シーンに特化）で学習した
SqueezeNetモデル（Webで軽量に動かせる）を使用
Places http://places2.csail.mit.edu/
freesound.orgからCreative Commons
で公開されている環境音を15000
ほど収集して検索対象に
任意のシーン画像入力
画像の特徴量にもっとも近い
音声特徴量を検索して音声を再生！
画像から環境音を生成する技術まででてきた！
Y. Zhou et al.
Visual to Sound: Generating Natural Sound
for Videos in the Wild,
arXiv:1712.01393
http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html

おわりに：「音」に関する研究はこれから面白くなる？
 AudioSet (Google)
• YouTubeから収集した200万規模の音声（特徴量）データセット
• 各音声は10秒 632のAudio Eventクラスに分類
• 「音」研究における “ImageNet”
• 画像分類のVGGの音声分類版であるVGGish（VGGっぽい）も提案
32

マルチモーダル: 言語 x 画像 x 音声 x 制御
33
TEXTSPEECHAUDIO
MUSIC
IMAGE CONTROL
Speech Recognition
Text-to-Speech
Synthesis
Image
Captioning
(Show and Tell)
Text-to-Image
Synthesis
Imaginary
Soundscape
Talking Head
Visual QA
VIDEO
Visual-to-
sound
TAG
Music Tagging
Image
TaggingSoundNet NL Guided
RL
See and
Listen
See, Hear, and Read

NIPS2017報告 SPEECH & AUDIO

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a NIPS2017報告 SPEECH & AUDIO

Semelhante a NIPS2017報告 SPEECH & AUDIO (19)

Último

Último (11)

NIPS2017報告 SPEECH & AUDIO

Notas do Editor