SlideShare uma empresa Scribd logo
1 de 33
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017報告
SPEECH & AUDIO
株式会社ディー・エヌ・エー
AIシステム部 AI研究開発グループ
森 紘一郎
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 森 紘一郎
 経歴
⁃ 2005年 株式会社東芝 研究開発センター
機械学習、データマイニング、音声合成(7年くらい)
⁃ 2017年 株式会社ディー・エヌ・エー
DEEP LEARNING(音声、コンピュータビジョン)
 プライベート
⁃ Twitter: aidiary (@sylvan5)
⁃ ブログ: 人工知能に関する断創録(2002〜)
⁃ http://aidiary.hatenablog.com/
⁃ 最近はマルチモーダルなDEEP LEARNINGに興味あり
2
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
発表の流れ
 音とDEEP LEARNING
⁃ 音や声の表現方法とDEEP LEARNINGでの扱い方
 「音」関連研究のタスク分類とNIPS2017での傾向と概要
⁃ 本会議
⁃ ワークショップ
• Machine Learning for Audio Signal Processing
• Machine Learning for Creativity and Design
 NIPS2017の「音」関連論文を2本紹介
⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech
⁃ Imaginary soundscape: cross-modal approach to
generate pseudo sound environments
 おわりに
3
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
音の表現 (1) 波形
 波形(raw waveform)
⁃ 音の波形は1次元時系列データとみなせる
⁃ 44.1kHz = 1秒間に44100個のサンプル点から成る
⁃ 16bit = 各サンプルが-32768〜32767の値を取る
4
https://deepmind.com/blog/wavenet-generative-model-raw-audio/
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
「画像」だけでなく「音」にもCNNが使える
5
W. Dai et al.
Very Deep Convolutional Neural Networks for Raw
Waveforms,
ICASSP 2017.
16kHzの音声だと
約2秒の音声
カーネルサイズ: 80
フィルタ数: 256
カーネルサイズ: 3
フィルタ数: 256
音声波形は1次元の時系列データ
Conv2dではなく
Conv1dを使う
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
音の表現 (2) メルスペクトログラム
 メルスペクトログラム(mel spectrogram)
⁃ 波形に対してSTFT(短時間フーリエ変換)を適用
⁃ 人の聴覚知覚に合うように周波数軸をメルスケールに変換
⁃ 横軸が時間、縦軸が周波数の2次元データとして表せる
6
時間(単位: フレーム)
周波数(メルスケール)
Audio features for web-based ML
https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (1)
7
 Convolutional Neural Network(CNN)
⁃ Conv1D or Conv2D
⁃ メルスペクトログラムを2次元の画像とみなす
⁃ カーネルのサイズはさまざま
時間(単位: フレーム)
周波数(メルスケール)
3
3
3
3
1
3
1
Audio features for web-based ML
https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (2)
 Recurrent Neural Network(RNN)
⁃ メルスペクトログラムを1次元ベクトルの時系列データとみなす
⁃ 文章を埋め込み単語ベクトルの系列とみなすのと似ている
⁃ 系列長が長くなりRNNで学習できない
8
周波数(メルスケール)
時間(単位: フレーム)
Audio features for web-based ML
https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Convolutional Recurrent Neural Network (CRNN) = CNN + RNN
9
K. Choi et al.
Convolutional Recurrent Neural Networks for Music Classification,
ICASSP 2017.
メルスペクトログラム
Conv2D
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017の「音」関連研究の概要 (1)
10
Speech Audio Music
認識
Speech Recognition
Speech Emotion Recognition
Gender/Age Recognition
Speaker Identification
Language Identification
Audio Classification
Environmental Sound Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Emotional Speech Synthesis
Singing Voice Synthesis
Voice Conversion
Environmental Sound Generation
Audio Style Transfer
Music Generation
Music Style Transfer
検出
Voice Activity Detection
Keyword Spotting
Singing Voice Detection
Audio Event Detection Melody Tracking
Beat Tracking
BGM detection
その他
Speech Enhancement
Sound Source Separation
Singing Voice Separation
Noise Reduction
Sound Representation Music Information Retrieval
Music Recommendation
Hit prediction
赤: 本会議
緑: ワークショップ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017の「音」関連研究の概要 (1)
11
Speech Audio Music
認識
Speech Recognition
Speech Emotion Recognition
Gender/Age Recognition
Speaker Identification
Language Identification
Audio Classification
Environmental Sound Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Emotional Speech Synthesis
Singing Voice Synthesis
Voice Conversion
Environmental Sound Generation
Audio Style Transfer
Music Generation
Music Style Transfer
検出
Voice Activity Detection
Keyword Spotting
Singing Voice Detection
Audio Event Detection Melody Tracking
Beat Tracking
BGM detection
その他
Speech Enhancement
Sound Source Separation
Singing Voice Separation
Noise Reduction
Sound Representation Music Information Retrieval
Music Recommendation
Hit prediction
Analyzing Hidden Representations in End-to-
End Automatic Speech Recognition
End-to-end音声認識における内部表現の可視化
音声からテキストへのマッピングを直接学習
従来の「音素」という概念は隠れ層のどこかでモデ
ル化されているのだろうか?
低レイヤで音素がモデル化されていることを確認!
Deep Voice 2
End-to-end音声合成において話者の埋め込みベクトル
を用いることで1つのニューラルネットから複数話者
の音声を合成することに成功!
Uncovering Latent Style Factors for
Expressive Speech Synthesis
Tacotronに潜在変数を導入して韻律スタイルを制御で
きるように拡張。スタイルは教師なしで学習するた
め人による解釈は必要
赤: 本会議
緑: ワークショップ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017の「音」関連研究の概要 (2)
12
Speech Audio Music
認識
Speech Recognition
Speech Emotion Recognition
Gender/Age Recognition
Speaker Identification
Language Identification
Audio Classification
Environmental Sound Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Emotional Speech Synthesis
Singing Voice Synthesis
Voice Conversion
Environmental Sound Generation
Audio Style Transfer
Music Generation
Music Style Transfer
検出
Voice Activity Detection
Keyword Spotting
Singing Voice Detection
Audio Event Detection Melody Tracking
Beat Tracking
BGM detection
その他
Speech Enhancement
Sound Source Separation
Singing Voice Separation
Noise Reduction
Sound Representation Music Information Retrieval
Music Recommendation
Hit prediction
Utilizing Domain Knowledge in End-to-End
Audio Processing
波形からメルスペクトログラムへ変換する高速な
CNNネットワークを提案
Raw Waveform based Audio Classification
Using Sample Level CNN Architecture
音声認識、楽曲分類、環境音分類の3つのタスクにお
いて波形入力のCNNアーキテクチャでSOTAに近い精
度が出た
Imaginary Soundcape
景色のシーン画像を入力するとそのシーンに適した
音声を再生するシステムを提案。
NELS: Never Ending Learner of Sounds
YouTubeから動画をクローリングして半教師あり学習
の枠組みで600以上の音声クラスにインデキシングす
るシステムを提案
赤: 本会議
緑: ワークショップ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
NIPS2017の「音」関連研究の概要 (3)
13
Speech Audio Music
認識
Speech Recognition
Speech Emotion Recognition
Gender/Age Recognition
Speaker Identification
Language Identification
Audio Classification
Environmental Sound Recognition
Scene Recognition
Music Tagging
Mood Recognition
Song Identification
生成
Speech Synthesis
Emotional Speech Synthesis
Singing Voice Synthesis
Voice Conversion
Environmental Sound Generation
Audio Style Transfer
Music Generation
Music Style Transfer
検出
Voice Activity Detection
Keyword Spotting
Singing Voice Detection
Audio Event Detection Melody Tracking
Beat Tracking
BGM detection
その他
Speech Enhancement
Sound Source Separation
Singing Voice Separation
Noise Reduction
Sound Representation Music Information Retrieval
Music Recommendation
Hit prediction
End-to-end learning for music audio tagging
at scale
Pandoraの120万曲の大規模データを使って楽曲タギ
ングの実験。入力が波形とメルスペクトログラムの
どちらがよいかを比較実験
Neural Translation of Music Style
楽譜を入力として音楽ジャンルのスタイル(ダイナ
ミクス)を出力するGenreNetを提案
赤: 本会議
緑: ワークショップ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
SPEECH & SOUND @ NIPS2017
 本会議
⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech
 WORKSHOP - Machine Learning for Creativity and Design
⁃ Imaginary soundscape: cross-modal approach to generate
pseudo sound environments
14
SPEECH
AUDIO
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Deep Voice 2: Multi-Speaker Neural Text-to-Speech
S. O. Arik, G. Diamos, A. Gibiansky, J. Miller, K. Peng, W. Ping, J. Raiman and Y. Zhou
Baidu Silicon Valley Artificial Intelligence Lab
15
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeepVoice1(Baidu) (音声合成の主要モジュールを
すべてNNに置き換えよう!)
音声合成の主要モジュールと主な音声合成アーキテクチャ
16
テキス
ト解析
テキスト
言語
特徴量
合成音声
音響
モデル
ボコーダー
音響
特徴量
F0(音の高さ)
時間長(音の長さ)
メルケプストラム(声の個人性、音韻)
周期非周期性指標(声のかすれ具合)
音素、トライフォン(しゃべる内容)
アクセント型
品詞
文章中での位置
Char2Wav
(人手の言語特徴量を排除しよう!)
WaveNet(Google)
(人手の音響特徴量を排除しよう!)
WaveNet vocoder
Tacotron(Google)
(人手の言語特徴量も音響特徴量を排除しよう!
真のEnd-to-End音声合成を目指すのだ!)
J. Sotelo et al.
Char2Wav: End-to-end speech synthesis,
ICLR 2017
Y. Wang et al.
Tacotron: Towards End-to-End Speech Synthesis,
Interspeech 2017
A. Oord et al.
WaveNet: A Generative Model for Raw Audio,
arXiv:1609.03499
S. O. Arik et al.
Deep Voice: Real-time Neural Text-to-speech,
ICML 2017
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 複数話者モデルへの拡張
⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの
(ニューラルネットワーク)モデルから複数話者の音声を合成でき
るようにした!
 比較手法として Tacotron(Google)を拡張した!
⁃ ボコーダーにWaveNetを導入
⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に
Deep Voice2 の貢献
17
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Single-speaker model と Multi-speaker model (1/2)
18
Aさんの
収録音声
Bさんの
収録音声
Aさん
モデル
Bさん
モデル
Aさんの合成音声
Bさんの合成音声
各話者で独立したニューラルネットのモデルを
学習する必要があるため話者ごとに大量の音声を
収録しないといけない
テキスト (例)これはテストです。
テキスト(例)これはテストです。
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Single-speaker model と Multi-speaker model (2/2)
19
Aさんの
収録音声
Bさんの
収録音声
複数
話者
モデル
Aさんの合成音声
Bさんの合成音声
複数話者の音声を使うことでモデルパラメータを
共有できるため各話者の音声は少量でもOK
テキスト + Aさんの埋め込みベクトル
テキスト + Bさんの埋め込みベクトル
話者の埋め込みベクトルを入力することで
1つのモデルで異なる話者の音声を合成できる
(モデルとともに訓練される!)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeepVoice2の全体構成
20
RNNの
初期値に
使用
入力を拡張
Embeddingも
BPによる学習対象
RNNの
初期値
正規化されている
出力をF0に戻す
有声・無声の判定
SpeakerのEmbeddingを
どこにどのように入れるかが
複数話者化のキー!
Duration(音素の長さ)を予測するネットワーク F0(声の高さ)を予測するネットワーク
声の高さ
音素の長さ
音素系列 音素系列
話者
この3つがそれぞれ独立したニューラルネット
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Speech synthesis (Vocal) model (from DeepVoice1)
21
F0(声の高さ)音声サンプル(自己回帰入力)
Speaker
DeepVoiceのVocoderはWaveNetの亜種
音声サンプル
言語特徴量もここから入力
話者
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
 複数話者モデルへの拡張
⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの
(ニューラルネットワーク)モデルから複数話者の音声を合成でき
るようにした!
 比較手法として Tacotron(Google)を拡張した!
⁃ ボコーダーにWaveNetを導入
⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に
Deep Voice2 の貢献
22
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Tacotron も複数話者対応モデルに拡張
23
TacotronはEncoder-Decoder型の音声合成手法
入力は文字で出力はスペクトログラム
入力は文字
最終出力は
スペクトログラム
Tacotronによる
合成音声
WaveNet
による合成音声
Speaker
Embedding
メルスペクトログラム
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
実験結果
24
MOS (Mean Opinion Score)
合成音声の品質の主観評価(1-5点)
話者の分類精度
Inception Score っぽい指標
原音で学習した話者分類モデル(CNN)で
合成音声の話者を正しく分類できるか?
108話者
各話者400発話
477話者
各話者30分
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
まとめ
25
DeepVoice1
DeepVoice2
Tacotron
DeepVoice3
Baidu Google
音声合成の個別モジュールを
すべてニューラルネットに
置き換え
1つのモデルで
複数話者に対応
Tacotron’
WaveNet導入
Tacotron’’
1つのモデルで
複数話者に対応
結論:DeepVoice2はTacotron’’より合成音声の品質がよい!
GOOD!!!
End-to-EndのTTS
Tactron2
W. Ping et al.
Deep Voice 3: 2000-Speaker Neural Text-to-
Speech,
arXiv:1710.07654 submitted to ICLR 2018
J. Shen et al.
Neural TTS Synthesisby Conditioning WaveNet on Mel Spectrogram
Predictions,
arXiv:1712.05884 submitted to ICASSP 2018
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Imaginary soundscape: cross-modal approach to generate
pseudo sound environments
Y. Kajihara, S. Dozono and N. Tokui
Qosmo inc. & The Univ. of Tokyo
26
create with AI
http://createwith.ai/
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Imaginary Soundscape の貢献
 シーンの画像を入力するとそのシーンの(疑似)環境音
(Soundscape)を再生するシステムを作った!
 Google Street Viewの街中探検で音まで聞こえてくる!
 シーン画像と環境音のマルチモーダル技術
27
http://imaginarysoundscape.qosmo.jp/
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
画像と音のマルチモーダル
28
 マルチモーダルDEEP LEARNING
⁃ 異なるモーダル(画像と音声)を同じ潜在空間に写像する
⁃ 画像をVisual CNNで特徴量に変換
⁃ 音声をAudio CNNで同じ潜在空間の特徴量に変換
⁃ 画像と音声の間で距離(KL-divergence)を求められる!
SoundNet
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
SoundNet: 音の深層表現を学習済みの画像分類モデルから学習
29
音声波形入力
(1次元時系列)
Conv1D
Global
Average
Pooling
1000次元
401次元
1401次元
最終的に音の深層表現として出力層ではなく
隠れ層の出力を用いる
Teacher Model
Student Model
Flickrからタグ検索して200万ビデオを収集
ここから画像と音声のペアを抽出
(例)Beach, Forest, Club, Engine
画像入力
Y. Aytar et al.
SoundNet: Learning Sound Representations from Unlabeled Video,
NIPS 2016.
Image Networkの出力分布と
Sound Networkの出力分布が
近くなるようにパラメータを学習
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
SoundNet の実験結果
30
SoundNetで抽出した音声特徴量を
用いて50カテゴリの環境音認識タスクを
評価したらSOTAの精度を達成できた!
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
まとめ
31
ImageNetではなく
Places365のデータセット(シーンに特化)で学習した
SqueezeNetモデル(Webで軽量に動かせる)を使用
Places http://places2.csail.mit.edu/
freesound.orgからCreative Commons
で公開されている環境音を15000
ほど収集して検索対象に
任意のシーン画像入力
画像の特徴量にもっとも近い
音声特徴量を検索して音声を再生!
画像から環境音を生成する技術まででてきた!
Y. Zhou et al.
Visual to Sound: Generating Natural Sound
for Videos in the Wild,
arXiv:1712.01393
http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
おわりに:「音」に関する研究はこれから面白くなる?
 AudioSet (Google)
• YouTubeから収集した200万規模の音声(特徴量)データセット
• 各音声は10秒 632のAudio Eventクラスに分類
• 「音」研究における “ImageNet”
• 画像分類のVGGの音声分類版であるVGGish(VGGっぽい)も提案
32
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル: 言語 x 画像 x 音声 x 制御
33
TEXTSPEECHAUDIO
MUSIC
IMAGE CONTROL
Speech Recognition
Text-to-Speech
Synthesis
Image
Captioning
(Show and Tell)
Text-to-Image
Synthesis
Imaginary
Soundscape
Talking Head
Visual QA
VIDEO
Visual-to-
sound
TAG
Music Tagging
Image
TaggingSoundNet NL Guided
RL
See and
Listen
See, Hear, and Read

Mais conteúdo relacionado

Mais procurados

Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールhoxo_m
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE広樹 本間
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相Takuya Yoshioka
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離Kitamura Laboratory
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎Akinori Ito
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類Keisuke Imoto
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―Akinori Ito
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理Yuma Koizumi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向Yuma Koizumi
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法Takeshi Mikami
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎Preferred Networks
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 

Mais procurados (20)

Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
Marp Tutorial
Marp TutorialMarp Tutorial
Marp Tutorial
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
コサイン類似度罰則条件付き非負値行列因子分解に基づく音楽音源分離
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
音声認識の基礎
音声認識の基礎音声認識の基礎
音声認識の基礎
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
LDA入門
LDA入門LDA入門
LDA入門
 

Semelhante a NIPS2017報告 SPEECH & AUDIO

マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNAYuki Saito
 
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。Koji Hara
 
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616Ridge-i
 
Dll講演資料 2017616
Dll講演資料 2017616Dll講演資料 2017616
Dll講演資料 2017616NORIKO HOSAKA
 
Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Kentaro Tachibana
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronKentaro Tachibana
 
Gcm#3 グリーモバイルサウンドの歩み・変遷
Gcm#3 グリーモバイルサウンドの歩み・変遷Gcm#3 グリーモバイルサウンドの歩み・変遷
Gcm#3 グリーモバイルサウンドの歩み・変遷GREE/Art
 
DDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal ProcessingDDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal ProcessingSohOhara
 
SIG-Audio#3 アンケート集計結果
SIG-Audio#3 アンケート集計結果SIG-Audio#3 アンケート集計結果
SIG-Audio#3 アンケート集計結果IGDA Japan SIG-Audio
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピックSIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピックIGDA Japan SIG-Audio
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
アナグラプレゼン資料 Cedec
アナグラプレゼン資料 Cedecアナグラプレゼン資料 Cedec
アナグラプレゼン資料 CedecTakayuki Nakamura
 

Semelhante a NIPS2017報告 SPEECH & AUDIO (19)

マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Nishimoto110111twcu p2
Nishimoto110111twcu p2Nishimoto110111twcu p2
Nishimoto110111twcu p2
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
ギター、パラメトリックスピーカー、ウルトラソニックエフェクター。
 
[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616[Ridge-i] Dll講演資料 2017616
[Ridge-i] Dll講演資料 2017616
 
Dll講演資料 2017616
Dll講演資料 2017616Dll講演資料 2017616
Dll講演資料 2017616
 
Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会Mellotron
 
Unityで音を制す
Unityで音を制すUnityで音を制す
Unityで音を制す
 
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
深層学習に基づくテキスト音声合成の技術動向_言語音声ナイト
 
Gcm#3 グリーモバイルサウンドの歩み・変遷
Gcm#3 グリーモバイルサウンドの歩み・変遷Gcm#3 グリーモバイルサウンドの歩み・変遷
Gcm#3 グリーモバイルサウンドの歩み・変遷
 
ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1ヤフー音声認識のご紹介#yjdsw1
ヤフー音声認識のご紹介#yjdsw1
 
DDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal ProcessingDDSP: Differentiable Digital Signal Processing
DDSP: Differentiable Digital Signal Processing
 
SIG-Audio#3 アンケート集計結果
SIG-Audio#3 アンケート集計結果SIG-Audio#3 アンケート集計結果
SIG-Audio#3 アンケート集計結果
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピックSIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
SIG-Audio#4 GDC 2013 AUDIO REPORT ゲームオーディオ トピック
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイトMicrosoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
 
アナグラプレゼン資料 Cedec
アナグラプレゼン資料 Cedecアナグラプレゼン資料 Cedec
アナグラプレゼン資料 Cedec
 

Último

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Último (11)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

NIPS2017報告 SPEECH & AUDIO

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017報告 SPEECH & AUDIO 株式会社ディー・エヌ・エー AIシステム部 AI研究開発グループ 森 紘一郎
  • 2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 自己紹介  森 紘一郎  経歴 ⁃ 2005年 株式会社東芝 研究開発センター 機械学習、データマイニング、音声合成(7年くらい) ⁃ 2017年 株式会社ディー・エヌ・エー DEEP LEARNING(音声、コンピュータビジョン)  プライベート ⁃ Twitter: aidiary (@sylvan5) ⁃ ブログ: 人工知能に関する断創録(2002〜) ⁃ http://aidiary.hatenablog.com/ ⁃ 最近はマルチモーダルなDEEP LEARNINGに興味あり 2
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 発表の流れ  音とDEEP LEARNING ⁃ 音や声の表現方法とDEEP LEARNINGでの扱い方  「音」関連研究のタスク分類とNIPS2017での傾向と概要 ⁃ 本会議 ⁃ ワークショップ • Machine Learning for Audio Signal Processing • Machine Learning for Creativity and Design  NIPS2017の「音」関連論文を2本紹介 ⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech ⁃ Imaginary soundscape: cross-modal approach to generate pseudo sound environments  おわりに 3
  • 4. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 音の表現 (1) 波形  波形(raw waveform) ⁃ 音の波形は1次元時系列データとみなせる ⁃ 44.1kHz = 1秒間に44100個のサンプル点から成る ⁃ 16bit = 各サンプルが-32768〜32767の値を取る 4 https://deepmind.com/blog/wavenet-generative-model-raw-audio/
  • 5. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 「画像」だけでなく「音」にもCNNが使える 5 W. Dai et al. Very Deep Convolutional Neural Networks for Raw Waveforms, ICASSP 2017. 16kHzの音声だと 約2秒の音声 カーネルサイズ: 80 フィルタ数: 256 カーネルサイズ: 3 フィルタ数: 256 音声波形は1次元の時系列データ Conv2dではなく Conv1dを使う
  • 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 音の表現 (2) メルスペクトログラム  メルスペクトログラム(mel spectrogram) ⁃ 波形に対してSTFT(短時間フーリエ変換)を適用 ⁃ 人の聴覚知覚に合うように周波数軸をメルスケールに変換 ⁃ 横軸が時間、縦軸が周波数の2次元データとして表せる 6 時間(単位: フレーム) 周波数(メルスケール) Audio features for web-based ML https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
  • 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (1) 7  Convolutional Neural Network(CNN) ⁃ Conv1D or Conv2D ⁃ メルスペクトログラムを2次元の画像とみなす ⁃ カーネルのサイズはさまざま 時間(単位: フレーム) 周波数(メルスケール) 3 3 3 3 1 3 1 Audio features for web-based ML https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
  • 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DEEP LEARNINGにおけるメルスペクトログラムの処理方法 (2)  Recurrent Neural Network(RNN) ⁃ メルスペクトログラムを1次元ベクトルの時系列データとみなす ⁃ 文章を埋め込み単語ベクトルの系列とみなすのと似ている ⁃ 系列長が長くなりRNNで学習できない 8 周波数(メルスケール) 時間(単位: フレーム) Audio features for web-based ML https://towardsdatascience.com/audio-features-for-web-based-ml-555776733bae
  • 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Convolutional Recurrent Neural Network (CRNN) = CNN + RNN 9 K. Choi et al. Convolutional Recurrent Neural Networks for Music Classification, ICASSP 2017. メルスペクトログラム Conv2D
  • 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017の「音」関連研究の概要 (1) 10 Speech Audio Music 認識 Speech Recognition Speech Emotion Recognition Gender/Age Recognition Speaker Identification Language Identification Audio Classification Environmental Sound Recognition Scene Recognition Music Tagging Mood Recognition Song Identification 生成 Speech Synthesis Emotional Speech Synthesis Singing Voice Synthesis Voice Conversion Environmental Sound Generation Audio Style Transfer Music Generation Music Style Transfer 検出 Voice Activity Detection Keyword Spotting Singing Voice Detection Audio Event Detection Melody Tracking Beat Tracking BGM detection その他 Speech Enhancement Sound Source Separation Singing Voice Separation Noise Reduction Sound Representation Music Information Retrieval Music Recommendation Hit prediction 赤: 本会議 緑: ワークショップ
  • 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017の「音」関連研究の概要 (1) 11 Speech Audio Music 認識 Speech Recognition Speech Emotion Recognition Gender/Age Recognition Speaker Identification Language Identification Audio Classification Environmental Sound Recognition Scene Recognition Music Tagging Mood Recognition Song Identification 生成 Speech Synthesis Emotional Speech Synthesis Singing Voice Synthesis Voice Conversion Environmental Sound Generation Audio Style Transfer Music Generation Music Style Transfer 検出 Voice Activity Detection Keyword Spotting Singing Voice Detection Audio Event Detection Melody Tracking Beat Tracking BGM detection その他 Speech Enhancement Sound Source Separation Singing Voice Separation Noise Reduction Sound Representation Music Information Retrieval Music Recommendation Hit prediction Analyzing Hidden Representations in End-to- End Automatic Speech Recognition End-to-end音声認識における内部表現の可視化 音声からテキストへのマッピングを直接学習 従来の「音素」という概念は隠れ層のどこかでモデ ル化されているのだろうか? 低レイヤで音素がモデル化されていることを確認! Deep Voice 2 End-to-end音声合成において話者の埋め込みベクトル を用いることで1つのニューラルネットから複数話者 の音声を合成することに成功! Uncovering Latent Style Factors for Expressive Speech Synthesis Tacotronに潜在変数を導入して韻律スタイルを制御で きるように拡張。スタイルは教師なしで学習するた め人による解釈は必要 赤: 本会議 緑: ワークショップ
  • 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017の「音」関連研究の概要 (2) 12 Speech Audio Music 認識 Speech Recognition Speech Emotion Recognition Gender/Age Recognition Speaker Identification Language Identification Audio Classification Environmental Sound Recognition Scene Recognition Music Tagging Mood Recognition Song Identification 生成 Speech Synthesis Emotional Speech Synthesis Singing Voice Synthesis Voice Conversion Environmental Sound Generation Audio Style Transfer Music Generation Music Style Transfer 検出 Voice Activity Detection Keyword Spotting Singing Voice Detection Audio Event Detection Melody Tracking Beat Tracking BGM detection その他 Speech Enhancement Sound Source Separation Singing Voice Separation Noise Reduction Sound Representation Music Information Retrieval Music Recommendation Hit prediction Utilizing Domain Knowledge in End-to-End Audio Processing 波形からメルスペクトログラムへ変換する高速な CNNネットワークを提案 Raw Waveform based Audio Classification Using Sample Level CNN Architecture 音声認識、楽曲分類、環境音分類の3つのタスクにお いて波形入力のCNNアーキテクチャでSOTAに近い精 度が出た Imaginary Soundcape 景色のシーン画像を入力するとそのシーンに適した 音声を再生するシステムを提案。 NELS: Never Ending Learner of Sounds YouTubeから動画をクローリングして半教師あり学習 の枠組みで600以上の音声クラスにインデキシングす るシステムを提案 赤: 本会議 緑: ワークショップ
  • 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. NIPS2017の「音」関連研究の概要 (3) 13 Speech Audio Music 認識 Speech Recognition Speech Emotion Recognition Gender/Age Recognition Speaker Identification Language Identification Audio Classification Environmental Sound Recognition Scene Recognition Music Tagging Mood Recognition Song Identification 生成 Speech Synthesis Emotional Speech Synthesis Singing Voice Synthesis Voice Conversion Environmental Sound Generation Audio Style Transfer Music Generation Music Style Transfer 検出 Voice Activity Detection Keyword Spotting Singing Voice Detection Audio Event Detection Melody Tracking Beat Tracking BGM detection その他 Speech Enhancement Sound Source Separation Singing Voice Separation Noise Reduction Sound Representation Music Information Retrieval Music Recommendation Hit prediction End-to-end learning for music audio tagging at scale Pandoraの120万曲の大規模データを使って楽曲タギ ングの実験。入力が波形とメルスペクトログラムの どちらがよいかを比較実験 Neural Translation of Music Style 楽譜を入力として音楽ジャンルのスタイル(ダイナ ミクス)を出力するGenreNetを提案 赤: 本会議 緑: ワークショップ
  • 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. SPEECH & SOUND @ NIPS2017  本会議 ⁃ Deep Voice 2: Multi-Speaker Neural Text-to-Speech  WORKSHOP - Machine Learning for Creativity and Design ⁃ Imaginary soundscape: cross-modal approach to generate pseudo sound environments 14 SPEECH AUDIO
  • 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Deep Voice 2: Multi-Speaker Neural Text-to-Speech S. O. Arik, G. Diamos, A. Gibiansky, J. Miller, K. Peng, W. Ping, J. Raiman and Y. Zhou Baidu Silicon Valley Artificial Intelligence Lab 15
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeepVoice1(Baidu) (音声合成の主要モジュールを すべてNNに置き換えよう!) 音声合成の主要モジュールと主な音声合成アーキテクチャ 16 テキス ト解析 テキスト 言語 特徴量 合成音声 音響 モデル ボコーダー 音響 特徴量 F0(音の高さ) 時間長(音の長さ) メルケプストラム(声の個人性、音韻) 周期非周期性指標(声のかすれ具合) 音素、トライフォン(しゃべる内容) アクセント型 品詞 文章中での位置 Char2Wav (人手の言語特徴量を排除しよう!) WaveNet(Google) (人手の音響特徴量を排除しよう!) WaveNet vocoder Tacotron(Google) (人手の言語特徴量も音響特徴量を排除しよう! 真のEnd-to-End音声合成を目指すのだ!) J. Sotelo et al. Char2Wav: End-to-end speech synthesis, ICLR 2017 Y. Wang et al. Tacotron: Towards End-to-End Speech Synthesis, Interspeech 2017 A. Oord et al. WaveNet: A Generative Model for Raw Audio, arXiv:1609.03499 S. O. Arik et al. Deep Voice: Real-time Neural Text-to-speech, ICML 2017
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  複数話者モデルへの拡張 ⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの (ニューラルネットワーク)モデルから複数話者の音声を合成でき るようにした!  比較手法として Tacotron(Google)を拡張した! ⁃ ボコーダーにWaveNetを導入 ⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に Deep Voice2 の貢献 17
  • 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Single-speaker model と Multi-speaker model (1/2) 18 Aさんの 収録音声 Bさんの 収録音声 Aさん モデル Bさん モデル Aさんの合成音声 Bさんの合成音声 各話者で独立したニューラルネットのモデルを 学習する必要があるため話者ごとに大量の音声を 収録しないといけない テキスト (例)これはテストです。 テキスト(例)これはテストです。
  • 19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Single-speaker model と Multi-speaker model (2/2) 19 Aさんの 収録音声 Bさんの 収録音声 複数 話者 モデル Aさんの合成音声 Bさんの合成音声 複数話者の音声を使うことでモデルパラメータを 共有できるため各話者の音声は少量でもOK テキスト + Aさんの埋め込みベクトル テキスト + Bさんの埋め込みベクトル 話者の埋め込みベクトルを入力することで 1つのモデルで異なる話者の音声を合成できる (モデルとともに訓練される!)
  • 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeepVoice2の全体構成 20 RNNの 初期値に 使用 入力を拡張 Embeddingも BPによる学習対象 RNNの 初期値 正規化されている 出力をF0に戻す 有声・無声の判定 SpeakerのEmbeddingを どこにどのように入れるかが 複数話者化のキー! Duration(音素の長さ)を予測するネットワーク F0(声の高さ)を予測するネットワーク 声の高さ 音素の長さ 音素系列 音素系列 話者 この3つがそれぞれ独立したニューラルネット
  • 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Speech synthesis (Vocal) model (from DeepVoice1) 21 F0(声の高さ)音声サンプル(自己回帰入力) Speaker DeepVoiceのVocoderはWaveNetの亜種 音声サンプル 言語特徴量もここから入力 話者
  • 22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.  複数話者モデルへの拡張 ⁃ 学習した話者の埋め込みベクトルを入力とすることで一つの (ニューラルネットワーク)モデルから複数話者の音声を合成でき るようにした!  比較手法として Tacotron(Google)を拡張した! ⁃ ボコーダーにWaveNetを導入 ⁃ 話者の埋め込みベクトルで複数話者の音声を合成可能に Deep Voice2 の貢献 22
  • 23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Tacotron も複数話者対応モデルに拡張 23 TacotronはEncoder-Decoder型の音声合成手法 入力は文字で出力はスペクトログラム 入力は文字 最終出力は スペクトログラム Tacotronによる 合成音声 WaveNet による合成音声 Speaker Embedding メルスペクトログラム
  • 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 実験結果 24 MOS (Mean Opinion Score) 合成音声の品質の主観評価(1-5点) 話者の分類精度 Inception Score っぽい指標 原音で学習した話者分類モデル(CNN)で 合成音声の話者を正しく分類できるか? 108話者 各話者400発話 477話者 各話者30分
  • 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. まとめ 25 DeepVoice1 DeepVoice2 Tacotron DeepVoice3 Baidu Google 音声合成の個別モジュールを すべてニューラルネットに 置き換え 1つのモデルで 複数話者に対応 Tacotron’ WaveNet導入 Tacotron’’ 1つのモデルで 複数話者に対応 結論:DeepVoice2はTacotron’’より合成音声の品質がよい! GOOD!!! End-to-EndのTTS Tactron2 W. Ping et al. Deep Voice 3: 2000-Speaker Neural Text-to- Speech, arXiv:1710.07654 submitted to ICLR 2018 J. Shen et al. Neural TTS Synthesisby Conditioning WaveNet on Mel Spectrogram Predictions, arXiv:1712.05884 submitted to ICASSP 2018
  • 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Imaginary soundscape: cross-modal approach to generate pseudo sound environments Y. Kajihara, S. Dozono and N. Tokui Qosmo inc. & The Univ. of Tokyo 26 create with AI http://createwith.ai/
  • 27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Imaginary Soundscape の貢献  シーンの画像を入力するとそのシーンの(疑似)環境音 (Soundscape)を再生するシステムを作った!  Google Street Viewの街中探検で音まで聞こえてくる!  シーン画像と環境音のマルチモーダル技術 27 http://imaginarysoundscape.qosmo.jp/
  • 28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 画像と音のマルチモーダル 28  マルチモーダルDEEP LEARNING ⁃ 異なるモーダル(画像と音声)を同じ潜在空間に写像する ⁃ 画像をVisual CNNで特徴量に変換 ⁃ 音声をAudio CNNで同じ潜在空間の特徴量に変換 ⁃ 画像と音声の間で距離(KL-divergence)を求められる! SoundNet
  • 29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. SoundNet: 音の深層表現を学習済みの画像分類モデルから学習 29 音声波形入力 (1次元時系列) Conv1D Global Average Pooling 1000次元 401次元 1401次元 最終的に音の深層表現として出力層ではなく 隠れ層の出力を用いる Teacher Model Student Model Flickrからタグ検索して200万ビデオを収集 ここから画像と音声のペアを抽出 (例)Beach, Forest, Club, Engine 画像入力 Y. Aytar et al. SoundNet: Learning Sound Representations from Unlabeled Video, NIPS 2016. Image Networkの出力分布と Sound Networkの出力分布が 近くなるようにパラメータを学習
  • 30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. SoundNet の実験結果 30 SoundNetで抽出した音声特徴量を 用いて50カテゴリの環境音認識タスクを 評価したらSOTAの精度を達成できた!
  • 31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. まとめ 31 ImageNetではなく Places365のデータセット(シーンに特化)で学習した SqueezeNetモデル(Webで軽量に動かせる)を使用 Places http://places2.csail.mit.edu/ freesound.orgからCreative Commons で公開されている環境音を15000 ほど収集して検索対象に 任意のシーン画像入力 画像の特徴量にもっとも近い 音声特徴量を検索して音声を再生! 画像から環境音を生成する技術まででてきた! Y. Zhou et al. Visual to Sound: Generating Natural Sound for Videos in the Wild, arXiv:1712.01393 http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html
  • 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. おわりに:「音」に関する研究はこれから面白くなる?  AudioSet (Google) • YouTubeから収集した200万規模の音声(特徴量)データセット • 各音声は10秒 632のAudio Eventクラスに分類 • 「音」研究における “ImageNet” • 画像分類のVGGの音声分類版であるVGGish(VGGっぽい)も提案 32
  • 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. マルチモーダル: 言語 x 画像 x 音声 x 制御 33 TEXTSPEECHAUDIO MUSIC IMAGE CONTROL Speech Recognition Text-to-Speech Synthesis Image Captioning (Show and Tell) Text-to-Image Synthesis Imaginary Soundscape Talking Head Visual QA VIDEO Visual-to- sound TAG Music Tagging Image TaggingSoundNet NL Guided RL See and Listen See, Hear, and Read

Notas do Editor

  1. 株式会社ディー・エヌ・エー AIシステム部の森と申します。 会社の国際会議参加制度を利用してNIPS2017に聴講参加してきました。 今回はテーマ発表ということでNIPSにおける音声関連の発表について報告します。
  2. プライベートではaidiaryというハンドルネームでTwitterとブログをやってます ブログは2002年くらいから人工知能に関する調査などを記事にまとめてます
  3. NIPSは音声・音楽関連の研究がとても少ない! INTERSPEECH, ICASSP, ISMIR
  4. まずは基本的なところから 音の波形は1次元時系列データとみなせます これはDeepMindのWaveNetのページから引用してきた図ですが音声波形を拡大していくとサンプル点の集合からなるのがよくわかります 波形のフォーマットはサンプリング周波数と量子化ビット数
  5. このような音声波形を直接Deep Learningで処理する方法ですが画像で使われているCNNが音声にも使えます 画像の場合は2次元のデータなので2次元のConvolutionやPoolingをしますが、音声の場合は1次元データなので1次元のConvolutionやPoolingになります その他にもWaveNetで使われているDilated Convolutionなどもある
  6. 【メル尺度】 低周波ほど細かく 高周波ほど粗く 人は低周波の方が聞き分けられる
  7. 先のRNNの問題を解決するためにCNNとRNNを組み合わせたCRNNもよく使われています これはConvで時間と特徴量を圧縮し、RNNで時間方向の変化をモデル化するアプローチです
  8. 【ここまで6分以内】 これで音をDEEP LEARNINGで扱う基本的な方法は紹介したのでここからNIPSの音関連研究を見ていきます。 NIPS2017の「音」関連の研究を整理するために下の図のような表に整理しました。 横軸は、音を Speech(人の音声) Audio(環境音や鳥の鳴き声などの音) Music(音楽)にわけました。 縦軸は、一般的なタスクです 画像の認識、生成(GAN)、物体検出に相当する研究分野が音声にもあるのでそれぞれ割り当てました。 【各タスクを簡単に紹介】 音の研究は「音声認識」と「音声合成」だけじゃない! さまざまな「音」のタスクにDEEP LEARNINGが使われはじめている
  9. 赤字が本会議であった論文です 緑がワークショップであった論文です
  10. あまり一般的な傾向は見えない あえて言うならこれまでのタスクをEnd-to-endの枠組みでDeep Learningで解き直した
  11. ここから2本の論文の詳細を説明します 本会議から音声合成の論文、ワークショップからマルチモーダルな環境音の生成に関する研究です 個人的に面白いと思ったものを選びました
  12. Deep Voiceは音響特徴量のうちF0と時間長のみ使用 メルケプストラムやBAPは使わない Tacotromはボコーダーフリー(End-to-end) テキストからスペクトログラム(音響特徴量とは言わない)のでボコーダーは使わないシステム 音声の直前のスペクトログラムまで飛ばすイメージ WaveNetは言語特徴量とともにF0もいれる(入れ方はレイヤの途中から) WaveNet vocoderは音響特徴量から波形に
  13. Tacotronの論文でもWaveNet使えるとの言及はあったが実装はしていない Speaker EmbeddingをEncoderだけでなくDecoderにもいれる オリジナルのTacotronではDecoderの出力のスペクトログラムに対してGriffin-Limで位相を復元し、逆短時間フーリエ変換(ISTFT)で波形に戻していた それとは別にDeepVoiceで提案したWaveNet型のVocal Modelで復元する方法も試した
  14. サンプリングレートが低いにもかかわらずTacotron音質はよいと判断された
  15. 著者のTokuiさんはcreate with aiというサイトを運営しています 人工知能技術を応用したアート・創作・マルチモーダル関連の論文やデータセットがまとめられていてとてもおもしろいです
  16. NIPS2016 画像と音声の関係を大量のラベルなしビデオから学習 音声の深層表現を学習するのが目的 Student-Teacher型の画像から音声への転移学習 SoundNetは画像ネットワークの1401カテゴリを使って学習している しかし、音声が同じカテゴリとは限らない => SoundNetの出力層はそのまま使わずに隠れ層の出力を深層表現として使う 分類はこれらの深層表現を用いてSVMで分類した 既存のSound Classification Taskで人手で抽出した特徴量よりよい性能が出た
  17. GoogleがAudioSetを公開! Visual to SoundもAudioSetのデータを使用 最近、人の音声と音楽はこれまでも研究が盛んだったが、最近熱いのは環境音の分野(監視、見守り、ロボット、マルチモーダルなど)