DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)

DTMでの音色検索を対象とした
機械学習アルゴリズムの提案
2016年09月09日
公立はこだて未来大学
修士2年齋藤創 (g2115015@fun.ac.jp)
大場みち子
Propose of Machine Learning Algorithms for the Searching Timbre Information on DTM
Copyright © 2016 Hajime Saito. All rights reserved.

Oba
michiko
lab
背景先行研究研究課題課題解決
アプローチ
目的・目標今後の展望
1. 背景
2. 先行研究
3. 目的・目標
4. 研究課題
5. 課題解決アプローチ
6. 今後の展望
本日の流れ
2016/09/09
FIT2016 E-25
DTMでの音色検索を対象とした機械学習アルゴリズムの提案
1

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
2
背景
背景
PC上での作曲(DTM：DeskTop Music)が発展
作曲した作品を発表する場が成長
消費者生成系メディア(CGM：Consumer Generated Media)が発展[1]
[1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」という市場創造を中心として,”
情報文化学会誌, vol. 21, no. 1, pp. 29–36, Aug. 2014.

Oba
michiko
lab
アプローチ
背景 <音色づくり>
2016/09/09
FIT2016 E-25
3
構想音色づくり
メロディ
作成
バランス
調整
(作曲プロセス例)
音色づくり定義
ソフトウェア音源のパラメータを調整し
楽曲に適した音色を作成する作業
※音源を作成するソフトウェア例
背景

Oba
michiko
lab
アプローチ
関連システム <TASS>
2016/09/09
FIT2016 E-25
4
音色づくり情報
オーディオファイル
説明用画像
音色づくり説明文
TASS[2]
メタデータ
ソフトウェア音源
(Synth1,初音ミク)
ジャンル
(エレクトロ,ロック)
雰囲気
(明るい,やわらかい)
Timbre Adjustment Support System
作成したい音色と類似する音色の音色づくり情報を
メタデータを用いて検索
[2]齋藤創, 大場みち子, “メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構築”, presented at the 情報処理学会第77回全国大
会, 2015.
DTM作曲者
背景

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
5
関連システム <TASS デモ>

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
6
問題点
背景
TASS
検索上位
検索下位
Aさん
Bさん
欲しい音色がすぐ
見つかった！
欲しい音色が
なかなか見つからない
ユーザによって音色の言語表現が異なる
単純な言語表現による検索だけでは
うまく音色づくり情報を検索できない

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
7
先行研究
先行研究
目的：DTMでの音色づくりの効率化を図る
課題：単純な言語表現による検索だけでは
うまく音色づくり情報を検索できない
メタデータを利用した機械学習による
DTM(DeskTop Music)での音色づくりの効率化 [3]
[3]齋藤創, 大場みち子, “メタデータを利用した機械学習によるDTM(DeskTop Music)での音色づくりの効率化”, 研究報告音楽情報科学（MUS）,
vol. 2016-MUS-110, no. 15, pp. 1–6, Feb. 2016.

Oba
michiko
lab
アプローチ
課題解決手法
1. 言語表現 <HEVNER>
2. 音響特徴量 <MFCC>
2016/09/09
FIT2016 E-25
8
TASS
陽気な
機械学習
検
索
フ
ィ
ル
タ
言語表現
明るい
音響特徴量
MFCC
1 2
これらを用いた機械学習により
検索フィルタを作成
先行研究

Oba
michiko
lab
アプローチ
言語表現
2016/09/09
FIT2016 E-25
9
音楽の心理的表現を形容する
HEVNERの形容詞クラスタ[4]
[4]K. HEVNER, “experimental studies of the elements of expression in music”, American Journal of Psychology, vol. 48, pp. 246–268, 1936.
重厚な / 神聖な
Serious / Sacred
C1
暗い / 悲しい
Dark / Sad
C2
夢の様な / 感傷的な
Dreamy / Sentimental
C3
静かな / 閑静な
Calm / Sacred
C4優美な / 明るい
Delicate / Light
C5
楽しい / 快活な
Happy / Cheerful
C6
劇的な / 大げさな
Dramatic / Sensational
C7
壮大な / 高尚な
Majestic / Exalting
C8
言語表現の指標として利用
先行研究

Oba
michiko
lab
アプローチ
音響特徴量
2016/09/09
FIT2016 E-25
10
※音声認識(声紋認識、楽器同定等)などをする場合に用いる音声の解析データ[5]
[5]千葉祐弥, “Q：さまざまな音響特徴量それぞれの使い方や意味を教えて下さい”, 音響学会ペディア. [Online]. Available:
http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed: 30-Dec-2015].
[6]宮澤幸希, “メル周波数ケプストラム（MFCC） - Miyazawa’s Pukiwiki 公開版”, Miyazawa’s Pukiwiki 公開版, 29-Mar-2013. [Online]. Available:
http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/66.html. [Accessed: 07-Jul-2015].
MFCC(Mel Frequency Cepstral Coefficient)[6]
人の聴覚特性を考慮しながらスペクトルの外形を表現する特徴量
音声認識や、楽器の同定に用いられる
音色を数値的に判別可能
先行研究
0
s (時間)
0
h()
振
幅
立ち上がり音
中間音
立ち上がり音と中間音のMFCCを利用

Oba
michiko
lab
アプローチ
本年度研究
 目的
 DTM作曲者が効率よく任意の音色づくり情報を
見つけることができるようにする
 目標
1. DTM作曲者一人ひとりの感性を考慮した検索フィルタを
作成する
2. 検索フィルタを適用したTASSv2を構築する
2016/09/09
FIT2016 E-25
11
目的・目標
先行研究
本年度研究

Oba
michiko
lab
アプローチ
研究課題
2016/09/09
FIT2016 E-25
12
研究課題
検索フィルタを作成するための
機械学習アルゴリズムを
検証および選定する必要がある
先行研究では、機械学習に利用する値を定めた

Oba
michiko
lab
アプローチ
課題解決アプローチ
2016/09/09
FIT2016 E-25
13
課題解決
アプローチ
アルゴリズム検証
・回帰式とSVM(SupportVectorMachine)による検証
アルゴリズム選定
・検証結果からシステムに導入する学習手法を選定
システム構築
・機械学習アルゴリズムを適用したTASSv2を構築
有効性検証
・アンケートやアクセスログから有効性を確認

Oba
michiko
lab
アプローチ
機械学習アルゴリズム
1. 回帰式
 ユーザの入力を考慮したアルゴリズムを作成
2. SVM(SupportVectorMachine)
 既存の機械学習アルゴリズムとして利用
2016/09/09
FIT2016 E-25
14
課題解決
アプローチ
本研究では次の2つのアルゴリズムを検証を行う

Oba
michiko
lab
アプローチ
機械学習アルゴリズム <回帰式>
2016/09/09
FIT2016 E-25
15
課題解決
アプローチ
……(１)
x∈(1,2,3,…,8) :形容詞のクラスタ y∈(0,1,2,…,12) :mfcc次元数
fx :検索フィルタ my :閲覧情報の
mfcc
Cx :各クラスタの親データ C∈(C1,C2,C3,…,C8)
Ix :入力された言語表現の値 Px :過去の検索フィル
タ(初期値はCxのスカラー)
1. 言語表現の入力がない場合は検索フィルタは変化しない
2. 入力値が大きいほど、大きく更新される
3. 閲覧した音色と変更前の検索フィルタの差が大きいほど、大きく更新される
特徴 TASS
検
索
フ
ィ
ル
タ
入
力

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
16
課題解決
アプローチ
……(１)
特徴 TASS
検
索
フ
ィ
ル
タ
入
力
mfcc

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
17
課題解決
アプローチ
……(１)
特徴 TASS
検
索
フ
ィ
ル
タ
入
力
mfcc

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
18
課題解決
アプローチ
……(１)
特徴 TASS
検
索
フ
ィ
ル
タ
入
力
mfcc

Oba
michiko
lab
アプローチ
機械学習アルゴリズム <SVM>
2016/09/09
FIT2016 E-25
19
課題解決
アプローチ
レベル数例網羅性処理速度
2
3
4
5
明るい明るくはない
低い
高い
早い
遅い
SVMを用いて音色の表現のレベルを判別する
SVM(SupportVectorMachine)：パターン認識手法の一つ[7]
[7]栗田多喜夫, “サポートベクターマシーン入門,” 産業技術総合研究所脳神経情報研究部門, p. 21.
※
※定義
言語表現の詳細化レベル

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
20
SVM <入力値例>
課題解決
アプローチ
id Class mfcc-1 mfcc-2 mfcc-3 mfcc-4 ・・・・・・ mfcc-26
1
- 1.511313081 0.144192398 0.122701563 0.386854559 -0.012140065
2
** 1.014427781 -0.64295423 -0.376046747 -0.104503296 0.009801606
3
*** 0.739102602 -0.188990891 -0.642014027 -0.249793604 -0.011665705
・
・
・
25
* 1.182803869 0.878320873 0.096936785 -0.021061091 0.028196063
形容詞クラスタC1 レベル数４の例
レベル数
入力無し -
レベル１ *
レベル２ *
立ち上がり音のMFCC 中間音のMFCC

Oba
michiko
lab
アプローチ
アルゴリズム検証
 手法
 被験者3名
 8つの形容詞クラスタ毎に25種類の音色を評価
 SVMはレベル数をそれぞれ検証
 Leave-One-Out※を用いて検証
2016/09/09
FIT2016 E-25
21
課題解決
アプローチ
※標本から1つの事例を取り出して
評価データとし、残りを学習データ
とする。全事例が1回は評価とな
るように検定を繰り返す検証方法
24回分の学習結果と評価データの
一致した割合(一致率)を確認
1 2 3 n(=25)
1
2
n(=25)
学習データ
評価データ

Oba
michiko
lab
アプローチ
アルゴリズム検証 <結果>
2016/09/09
FIT2016 E-25
22
課題解決
アプローチ
機械学習
アルゴリズム
一致率(%)
被験者
全体
A B C
SVM
レ
ベ
ル
数
2 49.5 66.5 62.0 59.3
3 54.5 60.0 45.0 53.2
4 50.0 58.0 41.5 49.8
5 50.5 59.5 39.0 49.7
20 50.5 51.5 40.5 47.5
回帰式 84.2 41.2 44.4 55.6

Oba
michiko
lab
アプローチ
機械学習
アルゴリズム
一致率(%)
被験者
全体
A B C
SVM
レ
ベ
ル
数
2 49.5 66.5 62.0 59.3
3 54.5 60.0 45.0 53.2
4 50.0 58.0 41.5 49.8
5 50.5 59.5 39.0 49.7
20 50.5 51.5 40.5 47.5
回帰式 84.2 41.2 44.4 55.6
アルゴリズム検証 <考察>
2016/09/09
FIT2016 E-25
23
課題解決
アプローチ
SVMの場合
一致率は50％前後となった
一致した値を調査
各クラスタに該当するかの判定精度は高い
一方、それ以外の判定精度は著しく低い
(値が入力されるかどうか)
本研究で用いる機械学習アルゴリズムとして
SVMは適切ではないということが判明した

Oba
michiko
lab
アプローチ
機械学習
アルゴリズム
一致率(%)
被験者
全体
A B C
SVM
レ
ベ
ル
数
2 49.5 66.5 62.0 59.3
3 54.5 60.0 45.0 53.2
4 50.0 58.0 41.5 49.8
5 50.5 59.5 39.0 49.7
20 50.5 51.5 40.5 47.5
回帰式 84.2 41.2 44.4 55.6
アルゴリズム検証 <考察>
2016/09/09
FIT2016 E-25
24
課題解決
アプローチ
SVMよりも一致率の精度は高い
一方、個人差が大きいため、
現状のアルゴリズムでは利用できない
回帰式の場合
回帰式を改良し、再度検証する必要がある
入力される形容詞クラスタの種類や学習値のバラツキ原因

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
25
回帰式の修正
x∈(1,2,3,…,8) :形容詞のクラスタ C∈(C1,C2,C3,…,C8)
fx :検索フィルタ m :閲覧情報の
mfcc
Cx :各クラスタの親データ
Ix :入力された言語表現の値 n :同時に入力された形容詞
クラスタの数
Px :１回前の検索フィルタ(初期値はCxのスカラー) P’x :２回前の検索フィルタ(初期値はCx
のスカラー)
TASS
検
索
フ
ィ
ル
タ
入
力
……(2)
課題解決
アプローチ

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
26
回帰式の修正
TASS
検
索
フ
ィ
ル
タ
入
力
……(2)
1. 入力する形容詞クラスタの種類が多いほど小さく更新する
課題解決
アプローチ
C1もC3も
C4もC6も…
少ないほど大きく更新する
x∈(1,2,3,…,8) :形容詞のクラスタ C∈(C1,C2,C3,…,C8)
mfcc
クラスタの数
のスカラー)

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
27
回帰式の修正
TASS
検
索
フ
ィ
ル
タ
入
力
……(2)
次元数を増やし、
極端な値が入力された場合でも急激な値の変化※を防ぐ
課題解決
アプローチ
※値のバラツキを防ぎ、個人差を小さくする
x∈(1,2,3,…,8) :形容詞のクラスタ C∈(C1,C2,C3,…,C8)
mfcc
クラスタの数
のスカラー)

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
28
検証 <回帰式(2)>
課題解決
アプローチ
一致率(%)
被験者
全体
A B C
SVM
レベル数20 50.5 51.5 40.5 47.6
回帰式(1) 84.2 41.2 44.4 55.6
回帰式(2) 70.6 56.3 75.0 67.9
回帰式(2)において、同様の検証を実施

Oba
michiko
lab
アプローチ
2016/09/09
FIT2016 E-25
29
検証 <回帰式(2)>
課題解決
アプローチ
一致率が向上し、個人差も小さくなった
0
10
20
30
40
50
60
70
80
90
100
SVM
(レベル数20)
回帰式(1) 回帰式(2)
アルゴリズム別一致率まとめグラフ
被験者A
被験者B
被験者C
全体
個人差

Oba
michiko
lab
アプローチ
今後の展望
2016/09/09
FIT2016 E-25
30
今後は改善した回帰式をTASSに適用し
TASSv2を構築する
今後の展望
1. 改善した回帰式を適用したシステムの構築
2. 機械学習アルゴリズムの有効性検証

Oba
michiko
lab
アプローチ
検証
2016/09/09
FIT2016 E-25
31
今後の展望
システムをリリースし、検証する
定量的評価定性的評価
アクセスログから
検索フィルタの有効性を
検証する
アンケートを実施し
TASSv2のユーザビリティ
を検証する
※
※検索フィルタの使用感やTASSv2の使いやすさ

Oba
michiko
lab
アプローチ
参考文献
[1]斎藤明, “サービス・ドミナント・ロジックにおける価値共創概念と市場創造 : 「初音ミク」という
市場創造を中心として”, 情報文化学会誌, vol. 21, no. 1, pp. 29–36, Aug. 2014.
[2]齋藤創, 大場みち子, “メタデータを活用したDTM(DeskTop Music)での音づくり支援システムの構
築”, presented at the 情報処理学会第77回全国大会, 2015.
[3]齋藤創 and 大場みち子, “メタデータを利用した機械学習によるDTM(DeskTop Music)での音色づく
りの効率化”, 研究報告音楽情報科学（MUS）, vol. 2016-MUS-110, no. 15, pp. 1–6, Feb. 2016.
[4]K. HEVNER, “experimental studies of the elements of expression in music”, American Journal of
Psychology, vol. 48, pp. 246–268, 1936.
[5]千葉祐弥, “Q：さまざまな音響特徴量それぞれの使い方や意味を教えて下さい,” 音響学会ペディア.
[Online]. Available: http://abcpedia.acoustics.jp/acoustic_feature_2.pdf. [Accessed: 30-Dec-2015].
[6]宮澤幸希, “メル周波数ケプストラム（MFCC） - Miyazawa’s Pukiwiki 公開版,” Miyazawa’s Pukiwiki
公開版, 29-Mar-2013.
[Online]. Available: http://shower.human.waseda.ac.jp/~m-kouki/pukiwiki_public/66.html.
[Accessed: 07-Jul-2015].
[7]栗田多喜夫, “サポートベクターマシーン入門,” 産業技術総合研究所脳神経情報研究部門, p. 0-21.
2016/09/09
FIT2016 E-25
32

Oba
michiko
lab
アプローチ
まとめ
 目的
 DTM作曲者が効率よく任意の音色づくり情報を
見つけることができるようにする
 課題解決アプローチ
 機械学習アルゴリズムの検証の実施
適用するアルゴリズムを選定
 結果・今後の予定
 機械学習アルゴリズムとして回帰式(2)が適切である事が判明
 改善した回帰式を用いてシステムを構築
アクセスログ等から有効性を検証
2016/09/09
FIT2016 E-25
33

DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (14)

Semelhante a DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)

Semelhante a DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016) (7)

DTMでの音色検索を対象とした機械学習アルゴリズムの提案(for FIT2016)

Notas do Editor