[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP

Wav2CLIP: Learning Robust Audio
Representations From CLIP
岡田領 / Ryo Okada
1

Wav2CLIP: Learning Robust Audio
Representations From CLIP
● Ho-Hsiang Wu, Prem Seetharaman, Kundan
Kumar, Juan Pablo Bello
● Music and Audio Research Laboratory, New
York University, USA, Descript, Inc.
● Arxiv投稿：2021/10/21
● https://descriptinc.github.io/lyrebird-wav2clip/
● ICASSP 2022投稿
● Tweets, Reddit postで少し話題
● CLIPの表現を音声に拡張．音楽から動画生成が
できる（右Twitterでの例）
書誌情報
2
https://twitter.com/pseetharaman/status/1453452915843108864
?s=20

● 複数モーダルを扱った自己教師あり学習が発展
● 音声の分野
▸ Youtubeなどの大量データから音声と画像の関係を自己教師あり学習（OpenL3など）
● 画像とテキストの学習
▸ CLIP
✓ Webから収集した画像と文章がペアの4億組の訓練データで学習
✓ 画像と言語のマルチモーダルな潜在表現を獲得
● 提案手法（Wav2CLIP）
▸ CLIPを蒸留するような形で音声と画像の関係を学習したモデルの提案
3
先行研究

● Webから収集した「画像+テキスト」4億組の訓練データ
● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の 32,768個の記述
文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習
● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能
4
先行研究：CLIP(Contrastive Language-Image Pre-training)

AudioCLIP: Extending CLIP to Image, Text
and Audio
● Andrey Guzhov, Federico Raue, Jörn
Hees, Andreas Dengel
● DFKI GmbH, TU Kaiserslautern
● Arxiv投稿：2021/7/24
● これもCLIPを音声に拡張した研究
（Wav2CLIPの論文内にあまり言及がな
かったが）
5
類似研究：AudioCLIP

6
類似研究：AudioCLIP
● 音声分類モデルESResNeXtをCLIPに組み
合わせる．CLIPのlossと同様の仕組みで，
文章と音声，画像と音声のlossを追加
● ①ImageNetで学習済みのESResNeXtを
AudioSetデータセットでAudio Headを事前
学習
● ②AudioSetの音声，テキスト（ラベル），
ビデオの画像で３つHeadをfine tune.
● ③音声分類タスクのデータでAudio Headを
調整
● 音声分類タスクの２つの環境音データセッ
ト（UrbanSound8K, ESC-50）でSOTA

● CLIPの学習済みモデルの重みを固定．動
画（VGGSoundデータセット）のimageと
audioの対応関係からAudio Encoderを学
習．（蒸留のような形式）
● CLIPと同様の対照学習のlossを使用
● 上記事前訓練後，重みを固定してタスクご
と特徴抽出器として利用可能．（評価タス
クではタスクごと追加の層を加えて学習）
7
提案手法：Wav2CLIP

● 学習方法の違い
▸ AudioCLIPは画像，文章，音声の関係をファインチューニングして調整
▸ Wav2CLIPはCLIPモデル（画像，文章）の重みは固定し，音声の表現をCLIP
に合わせるように学習
● 音声表現を獲得するデータセットが違い
▸ AudioCLIP: AudioSet（~1.8M, ~20k eva set 10second clips, 527classes, youtube）
▸ Wav2CLIP: VGGSound（~200k 10second clips, 309classes, youtube）
● その他
▸ AudioCLIPは評価タスクに合わせて強めに調整（Audioエンコーダを更新）
8
AudioCLIPとWav2CLIPの違い

● 評価タスク
▸ 分類（MC, ML）
✓ 2層のMLP分類器を訓練
▸ オーディオ検索（AR）
▸ クロスモーダル検索（CMR）
✓ 潜在空間で音声表現と近いテキストを抽出
▸ 音声キャプショニング（AC）
✓ １層のtransformerデコーダを訓練し，文章生成
● 音声表現モデルと比較
▸ OpenL3
✓ AudioSetデータセットで自己教師あり訓練
▸ YamNet
✓ AudioSetで教師あり学習
9
実験概要

● SOTAには及ばず，他の音声表現モデルOpenL3, YamNetと同等か，上回る性能（分類）
● ゼロショット分類はランダムよりは良い結果とのこと
● 音声検索タスクでもOpenL3より良い結果
10
実験結果

● 音声キャプショニングの結果
● ベースラインをわずかに上回る結果
11
実験結果

● VGGSoundデータの分類タスクでデ
ータ量の比較
● YamNetとWav2CLIPは少ないデータ
量で高い性能が出ている
12
実験結果

● VQGAN-CLIP（VQGANの生成
画像をCLIPの潜在空間でテキ
ストに近づける）の仕組みを音
声入力に置き換えて音声からの
画像生成を実施
● UrbanSound8Kデータセット
（環境音）で試した結果
● テキスト（上段）
● 音声（下段）
13
実験結果

● musdb18（楽曲のデータセ
ット）を使った結果
● ボーカル，ベース，ドラム，
その他，合算した音声からそ
れぞれ生成
● 上段，下段で別の曲
14
実験結果

● CLIPの表現を音声にも拡張し，画像，文章，音声のマルチモーダルな関係を獲得
● 学習済みのCLIPから蒸留するような形で音声エンコーダを学習した
● 音声から画像（動画）生成の実例を示した
● 音声は画像，文章に続き，Webのアーカイブから大量データが得られやすい情報
なのでこう言った拡張は比較的やりやすい領域
● 既存の学習モデルに別のモーダルを追加するときの１つのパターン感
15
まとめ

[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

Último

Último (10)

[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP