O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

ソーシャルコメントからの音楽動画印象推定手法の提案

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio

Confira estes a seguir

1 de 25 Anúncio

ソーシャルコメントからの音楽動画印象推定手法の提案

Baixar para ler offline

DEIM 2016で発表した際のプレゼン用のスライドです。
まとめ以降のスライド4枚は質問用のスライドとなっています。

DEIM 2016で発表した際のプレゼン用のスライドです。
まとめ以降のスライド4枚は質問用のスライドとなっています。

Anúncio
Anúncio

Mais Conteúdo rRelacionado

Quem viu também gostou (8)

Mais de nakamura-lab (20)

Anúncio

Mais recentes (20)

ソーシャルコメントからの音楽動画印象推定手法の提案

  1. 1. ソーシャルコメントからの 音楽動画印象推定手法の提案 土屋 駿貴 (明治大学 総合数理学部 B3) 大野 直紀 (明治大学 総合数理学部 B3) 中村 聡史(明治大学 総合数理学部) 山本 岳洋(京都大学大学院情報学研究科)
  2. 2. こんな経験ないですか?
  3. 3. • 音楽動画からユーザが受ける主観的な印 象に基づく検索・推薦 • 「明るく元気の出る音楽動画」 • 「かわいい音楽動画」 背景 http://www.nicovideo.jp/watch/sm10820620 http://www.nicovideo.jp/watch/sm16366329 • タイトル・タグから検索 • 「初音ミク 切ない曲」: 127件 • ニコニコ動画:5%[山本2009],Last.fm:14%[Hu2007] 音楽動画に対して 印象値を付与する必要がある
  4. 4. 機械的な印象推定 • 音響特徴量 • 歌詞と音響信号から特徴量を抽出し楽曲の 印象推定 [西川2011] • 映像特徴量 音楽動画の印象推定 印象評価を行った正解データセット
  5. 5. 人手での印象評価 かわいい 切ない 面白い 時間的・金銭的コストがかかる
  6. 6. (500曲) ×(3メディアタイプ) ×(3人の評価者)× (視聴時間30秒+ 8印象タイプの評価時間30秒) =75時間 (5000曲) ×(3メディアタイプ) ×(3人の評価者)× (視聴時間30秒+ 8印象タイプの評価時間30秒) =750時間 (50000曲) ×(3メディアタイプ) ×(3人の評価者)× (視聴時間30秒+ 8印象タイプの評価時間30秒) =7500時間 (50000曲) ×(3メディアタイプ) ×(10人の評価者)× (視聴時間30秒+ 8印象タイプの評価時間30秒) =25000時間 印象評価データセット データセットの拡張 手軽なデータセットの拡張
  7. 7. • ユーザが自ら付与してくれている • ユーザが感じた印象をリアルタイムに文字 にして表現していると考えられる • 膨大な量のコメントデータが存在 ソーシャルコメント http://www.nicovideo.jp/watch/sm13252011
  8. 8. メディアタイプ 音楽動画に対して コメントされているとは限らない
  9. 9. 目的 正解データセット拡張のために コメントからの印象推定はどの程度 可能かを検討する • 3つのメディアタイプと8つの印象タイプ について考慮
  10. 10. 印象評価データセット[大野2015] • 評価対象:ニコニコ動画に投稿された動画のうち 「VOCALOID」タグが付与されたもの • 500件の音楽動画のサビ部分の30秒(ReflaiD[後藤2003] を使用) • 音楽動画のサビ部分を3つのメディアタイプに 分離し,それぞれ8つの印象タイプに関して評価 1. 音楽動画(音楽と映像の組み合わせ) 2. 音楽のみ 3. 映像のみ • 3人の評価者によって各メディア・印象タイプを 5段階(-2~+2)で評価
  11. 11. • Valence(楽しい,悲しい) • Arousal(積極的,消極的) • C1(堂々とした) • C2(元気が出る) • C3(切ない) • C4(激しい) • C5(滑稽) • C6(かわいい) 印象軸[大野2015] Russel[Russel1980] MIREX
  12. 12. コメント数の変化 コメントの収集と抽出 • ニコニコ動画APIを用いて,印象評価データセッ トに該当する音楽動画(500曲)に対するすべ てのコメント(860,455個)を収集 • 音楽動画の印象評価値が付いているサビ区間内 に投稿されたコメント(132,036個)を抽出 Aメロ サビCメロBメロ サビ
  13. 13. 名詞を使用 すべての品詞を使用 • MeCabを用いて形態素解析することで単語 に分割し、使用する品詞に属する単語の 出現頻度を数え、単語ベクトルとする 音楽動画に対する単語ベクトルの生成 ミク かわいい 初見 良い 動画A 2 1 1 1 「ミクかわいい」「初見」「ミク良い」「ミク / かわいい」「初見」「ミク / 良い」 形容詞を使用 かわいい 良い 動画A 1 1 ミク 初見 動画A 1 1
  14. 14. 単語ベクトルの生成手法 手法名 用いる品詞 all手法 すべての品詞 all2手法 名,動,形容,副 Noun手法 名詞 Verb手法 動詞 Adj手法 形容詞 Adv手法 副詞 手法名 用いる品詞 Noun-Verb 手法 名詞,動詞 Noun-Adj 手法 名詞,形容詞 Noun-Adv 手法 名詞,副詞 Verb-Adj 手法 動詞,形容詞 Verb-Adv 手法 動詞,副詞 Adj-Adv 手法 形容詞,副詞
  15. 15. 評価実験 • (3メディアタイプ)×(8印象タイプ) の24パターンについて,評価値をもとに 動画集合を構築 動画集合 低評価群 高評価群 (負例) (正例) 1以上-1以下
  16. 16. 評価実験 • SVMを用いて交差検定を行い,正例の適合率 を計算 • 得られた動画集合を5分割し,4つを訓練データ 1つをテストデータとして交差検定を実施 (5-foldクロスバリデーション) • 適合率:テストデータ内で正例と判定された ものに正例が含まれる割合 正例(正解) 負例(正解) 正例(テストデータ) ○ × 負例(テストデータ) × ○ 正例(正解) 負例(正解) 正例(テストデータ) ○ × 負例(テストデータ) × ○
  17. 17. 名 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 各手法の結果 全 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 全 2 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 動 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 C 1 C 2 C 3 C 4 C 5 C 6 V A 平 音 動 0.720 0.830 0.713 0.765 0.718 0.758 0.783 0.777 0.758 音 0.742 0.671 0.612 0.661 0.600 0.712 0.704 0.744 0.681 映 0.611 0.680 0.752 0.714 0.603 0.797 0.660 0.743 0.695 平 0.691 0.727 0.692 0.713 0.640 0.756 0.716 0.755 0.711 All手法 All2手法 Noun手法 Verb手法 Adj手法 Adv手法 Noun-Verb手法 Noun-Adj手法 Noun-Adv手法 Verb-Adj手法 Verb-Adv手法 Adj-Adv手法
  18. 18. C1 C2 C3 C4 C5 C6 V A 平 音楽動画 動形 0.781 形 0.869 全 0.713 名形 0.780 名形 0.750 動形 0.856 全 0.783 形副 0.844 0.797 音楽のみ 名形 0.754 全 0.671 名形 0.612 名形 0.750 全2 0.725 全2 0.787 名形 0.740 名形 0.806 0.730 映像のみ 動形 0.921 名形 0.792 全 0.752 形 0.759 名形 0.657 形 0.829 形副 0.840 形副 0.884 0.804 平均 0.819 0.777 0.692 0.763 0.711 0.824 0.788 0.845 0.777 メディア・印象タイプで最も高い値とその手法
  19. 19. C1 C2 C3 C4 C5 C6 V A 平 音楽動画 動形 0.781 形 0.869 全 0.713 名形 0.780 名形 0.750 動形 0.856 全 0.783 形副 0.844 0.797 音楽のみ 名形 0.754 全 0.671 名形 0.612 名形 0.750 全2 0.725 全2 0.787 名形 0.740 名形 0.806 0.730 映像のみ 動形 0.921 名形 0.792 全 0.752 形 0.759 名形 0.657 形 0.829 形副 0.840 形副 0.884 0.804 平均 0.819 0.777 0.692 0.763 0.711 0.824 0.788 0.845 0.777 動形 0.781 形 0.869 全 0.713 名形 0.780 名形 0.750 動形 0.856 全 0.783 形副 0.844 0.797 名形 0.754 全 0.671 名形 0.612 名形 0.750 全2 0.725 全2 0.787 名形 0.740 名形 0.806 0.730 動形 0.921 名形 0.792 全 0.752 形 0.759 名形 0.657 形 0.829 形副 0.840 形副 0.884 0.804 0.819 0.777 0.692 0.763 0.711 0.824 0.788 0.845 0.777 動形 0.781 形 0.869 全 0.713 名形 0.780 名形 0.750 動形 0.856 全 0.783 形副 0.844 名形 0.754 全 0.671 名形 0.612 名形 0.750 全2 0.725 全2 0.787 名形 0.740 名形 0.806 動形 0.921 名形 0.792 全 0.752 形 0.759 名形 0.657 形 0.829 形副 0.840 形副 0.884 メディア・印象タイプで最も高い値とその手法
  20. 20. 考察 • 印象を表す際には形容詞が用いられ、また その形容詞に特徴が出やすい • C1(堂々),C6(かわいい),Arousal • C3(切ない),C5(滑稽)はソーシャルコメント から推定することは困難 • コメントは音楽より映像に対して付与され る傾向がある
  21. 21. まとめ • ニコニコ動画のコメントから音楽動画の印象 推定を行い,その精度について分析を実施 • 手法ごとに印象推定精度を出した • 手法を使い分けることで、コメントからの音楽 動画に対する印象推定が有効である可能性 • 既存の膨大な量のコメントデータを用いた印象 評価データセットの拡張可能性 [今後の展開] • 評価値にブレがあるため、評価者全員が一定の評価 をつけた音楽動画についての推定精度について考慮 • どんなコメントや単語が推定精度に影響を与えてい るのかを調査
  22. 22. 高評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 76 105 87 54 83 104 101 150 音楽のみ 133 127 46 69 49 73 124 178 映像のみ 21 50 142 49 81 78 57 111 音楽動画数 低評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 105 169 191 209 178 215 62 94 音楽のみ 65 92 232 195 180 209 61 43 映像のみ 252 272 165 247 207 234 96 155
  23. 23. all手法の適合率 C1 C2 C3 C4 C5 C6 V A 音楽動画 0.645 0.769 0.560 0.568 0.553 0.734 0.794 0.837 音楽のみ 0.790 0.741 0.283 0.600 0.425 0.569 0.821 0.886 映像のみ 0.263 0.471 0.669 0.360 0.594 0.667 0.529 0.713
  24. 24. 高評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 76 105 87 54 83 104 101 150 音楽のみ 133 127 46 69 49 73 124 178 映像のみ 21 50 142 49 81 78 57 111 音楽動画数 低評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 105 169 191 209 178 215 62 94 音楽のみ 65 92 232 195 180 209 61 43 映像のみ 252 272 165 247 207 234 96 155
  25. 25. アンダーサンプリング 高評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 76 105 87 54 83 104 62 94 音楽のみ 65 92 46 69 49 73 61 43 映像のみ 21 50 142 49 81 78 57 111 低評価群 C1 C2 C3 C4 C5 C6 V A 音楽動画 76 105 87 54 83 104 62 94 音楽のみ 65 92 46 69 49 73 61 43 映像のみ 21 50 142 49 81 78 57 111

×