SlideShare uma empresa Scribd logo
1 de 13
CVPR2019 Accepted Papers から
multi-labelと名の付くものをいくつかざっくり紹介
【画像処理 & 機械学習】論文LT会!#3
2019.6.7 @LPIXEL
俵(@tawatawara)
Part2
Multi-Label Classification (前回資料より)
1枚の画像に対して複数の Label が付いている識別問題
◦ 複数の物体が写っている、複数の属性を持っている、など
◦ ImageNet は1000クラス中1つだけ付く => Multi-Class (Single-Label) Classification
◦ 一般的にクラスの出現回数が(超)不均衡であることが多い
https://www.kaggle.com/c/human-protein-atlas-image-classification
Kaggle コンペでの例
◦ タンパク質コンペ(object)
◦ 細胞の画像に 28 クラスからラベル付け
◦ train: 約3万, test: 約1万
◦ 最高頻度:12885回
◦ 最低頻度:11回
◦ 壺コンペ (object and attribute)
◦ 美術品の画像に 1103 クラスからラベル付け
◦ train:約10万, test:約8千(stage1)→約4万(stage2)
◦ 最高頻度: 19970回
◦ 最低頻度: 1回 https://www.kaggle.com/c/imet-2019-fgvc6
Class Imbalance Problem
◦ よく出現する class と稀にしか出現しない class (大抵めっちゃ少ない) の差が凄まじい
◦ Label を複数付けるため、(おそらく) single-label よりもひどい
Incomplete and Noisy Labels
◦ single-label に比べてアノテーションがとても大変
◦ 対応する label が全部ついていなかったり、誤ったラベルが付いたりしやすい
Interactions between Classes
◦ 同じ画像にラベル付けされたクラスが独立とは限らない
◦ 何らかの関係性を識別に利用できる可能性がある
Multi-Label Classification (前回資料より)
Class Imbalance Problem
Incomplete and Noisy Labels (and Interactions between Classes)
Interactions between Classes
CVPR2019 で “multi-label” と名の付くもの
[Oral, Poster] LaSO: Label-Set Operations networks for multi-label few-shot learning
(Alfassy et al.)
[Poster] Learning a Deep ConvNet for Multi-label Classification with Partial Labels
(Durand et al.)
[Poster] Multi-Label Image Recognition with Graph Convolutional Networks
(Chen et al.)
[Poster] Visual Attention Consistency under Image Transforms for Multi-label Image
Classification (Guo et al.)
前回紹介
した2本
やっぱり
発見
できず
今回紹介
Multi-Label Image Recognition with
Graph Convolutional Networks
Zhao-Min Chen1,2, Xiu-Shen Wei2, Peng Wang3, and Yanwen Guo1
1National Key Laboratory for Novel Software Technology, Nanjing University, China
2Megvii Research Nanjing, Megvii Technology, China
3School of Computer Science, The University of Adelaide, Australia
概要
モチベーション
◦ 画像に対する multi-label recognition において、
class の依存関係を考慮したい
◦ ただし、依存関係は明示されていないものとする
提案手法
◦ class に対応する分散表現(e.g. word embedding)
を node の feature とする GCN
◦ 相関行列は dataset 内の共起ベースで構築
◦ GCNの出力(重み行列)を、CNNで抽出した意味特徴
に対して識別器として用いる
特徴
◦ 依存関係(相関行列)が not given
◦ 学習された識別器(上述の重み)は class の依存関係
(?)を反映したものになっている
モデル全体像
通常の
Fully-Connect
の代わりに使用
提案するGCNのポイント
通常のGCN
◦ 入力: 各 node の特徴ベクトルを並べた行列 𝐻0
と相関行列 𝐴
◦ 学習させるパラメータ: 変換行列 𝑊 𝑙
(𝑙 = 0,1, . . , 𝐿 − 1)
◦ Stack 数(𝐿) 分繰り返し適用
提案手法.
◦ 相関行列 𝐴 は not given.
◦ 一般的な Image datasets において相関行列は与えられない
◦ 本論文では data driven な手法で作成する
◦ dataset 内のラベルの共起関係から相関行列を作成
◦ 条件付き確率 𝑝 𝐿𝑗|𝐿𝑖 を用いて相関行列を構成する
𝑃𝑖𝑗 = 𝑃 𝐿𝑗|𝐿𝑖 =
𝑀𝑖𝑗
𝑁𝑖
𝑀𝑖𝑗 : ラベル 𝐿𝑖, 𝐿𝑗 の共起回数
𝑁𝑖 : ラベル 𝐿𝑖 の出現回数
提案するGCNのポイント
提案手法(続き)
◦ 二値行列に変換
◦ 条件付き確率をそのまま使うのはよく無いのでハイパラで調整
◦ 共起回数はしばしば long-tail な分布
◦ そのまま使ってしまうと train data に overfit する可能性
◦ Noisy な エッジを filtering できる
◦ Re-weight
◦ 二値行列では over-smoothing が発生する
◦ “That is, the node features may be over-smoothed such
that nodes from different clusters (e.g., kitchen related vs.
living room related) may become indistinguishable“
◦ 要は周辺 node の影響を受け過ぎて区別が付かなくなることを
言ってるっぽい
◦ そこで、自分自身からの伝搬を優先するように edge を重み付け
◦ p もハイパラです
多分 𝐴𝑖,𝑗が抜けている??
性能評価(MS-COCO)
ハイパラなどの比較
t-SNE による意味特徴の可視化
まとめ
ラベルの依存関係を考慮する multi-label classification model を提案
◦ GCN を用いて label の表現(word embedding) を識別器に変換
◦ 画像から得られた意味特徴に適用
◦ 性能の向上を確認
相関行列が与えられない場合でもGCNを適用できる
◦ train dataset 内のラベルの共起関係から相関行列を作成
◦ ハイパラで調整をくわえることでいい感じに
個人的に色々と気になっているところ
◦ T-SNE による識別器の可視化は確かにそれっぽいが…
◦ Word embedding のおかげでは?
◦ One-hot でやったときはどうなったのか?
◦ One-hot embedding でもそんなに性能が変わらない(????)
◦ どの画像でも、GCN側の入力が同じ
◦ 一体何が学習されているんだ…?
◦ 最後の層より前はほぼ定数と化していて、最後の層だけ逆伝播で更新されている可能性も…
◦ GCNについて最後より前の層についても分析が欲しかった

Mais conteúdo relacionado

Destaque

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Destaque (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

【論文LT資料】 CVPR2019 の "Multi-Label" と名の付く論文を紹介 Part2

  • 1. CVPR2019 Accepted Papers から multi-labelと名の付くものをいくつかざっくり紹介 【画像処理 & 機械学習】論文LT会!#3 2019.6.7 @LPIXEL 俵(@tawatawara) Part2
  • 2. Multi-Label Classification (前回資料より) 1枚の画像に対して複数の Label が付いている識別問題 ◦ 複数の物体が写っている、複数の属性を持っている、など ◦ ImageNet は1000クラス中1つだけ付く => Multi-Class (Single-Label) Classification ◦ 一般的にクラスの出現回数が(超)不均衡であることが多い https://www.kaggle.com/c/human-protein-atlas-image-classification Kaggle コンペでの例 ◦ タンパク質コンペ(object) ◦ 細胞の画像に 28 クラスからラベル付け ◦ train: 約3万, test: 約1万 ◦ 最高頻度:12885回 ◦ 最低頻度:11回 ◦ 壺コンペ (object and attribute) ◦ 美術品の画像に 1103 クラスからラベル付け ◦ train:約10万, test:約8千(stage1)→約4万(stage2) ◦ 最高頻度: 19970回 ◦ 最低頻度: 1回 https://www.kaggle.com/c/imet-2019-fgvc6
  • 3. Class Imbalance Problem ◦ よく出現する class と稀にしか出現しない class (大抵めっちゃ少ない) の差が凄まじい ◦ Label を複数付けるため、(おそらく) single-label よりもひどい Incomplete and Noisy Labels ◦ single-label に比べてアノテーションがとても大変 ◦ 対応する label が全部ついていなかったり、誤ったラベルが付いたりしやすい Interactions between Classes ◦ 同じ画像にラベル付けされたクラスが独立とは限らない ◦ 何らかの関係性を識別に利用できる可能性がある Multi-Label Classification (前回資料より)
  • 4. Class Imbalance Problem Incomplete and Noisy Labels (and Interactions between Classes) Interactions between Classes CVPR2019 で “multi-label” と名の付くもの [Oral, Poster] LaSO: Label-Set Operations networks for multi-label few-shot learning (Alfassy et al.) [Poster] Learning a Deep ConvNet for Multi-label Classification with Partial Labels (Durand et al.) [Poster] Multi-Label Image Recognition with Graph Convolutional Networks (Chen et al.) [Poster] Visual Attention Consistency under Image Transforms for Multi-label Image Classification (Guo et al.) 前回紹介 した2本 やっぱり 発見 できず 今回紹介
  • 5. Multi-Label Image Recognition with Graph Convolutional Networks Zhao-Min Chen1,2, Xiu-Shen Wei2, Peng Wang3, and Yanwen Guo1 1National Key Laboratory for Novel Software Technology, Nanjing University, China 2Megvii Research Nanjing, Megvii Technology, China 3School of Computer Science, The University of Adelaide, Australia
  • 6. 概要 モチベーション ◦ 画像に対する multi-label recognition において、 class の依存関係を考慮したい ◦ ただし、依存関係は明示されていないものとする 提案手法 ◦ class に対応する分散表現(e.g. word embedding) を node の feature とする GCN ◦ 相関行列は dataset 内の共起ベースで構築 ◦ GCNの出力(重み行列)を、CNNで抽出した意味特徴 に対して識別器として用いる 特徴 ◦ 依存関係(相関行列)が not given ◦ 学習された識別器(上述の重み)は class の依存関係 (?)を反映したものになっている
  • 8. 提案するGCNのポイント 通常のGCN ◦ 入力: 各 node の特徴ベクトルを並べた行列 𝐻0 と相関行列 𝐴 ◦ 学習させるパラメータ: 変換行列 𝑊 𝑙 (𝑙 = 0,1, . . , 𝐿 − 1) ◦ Stack 数(𝐿) 分繰り返し適用 提案手法. ◦ 相関行列 𝐴 は not given. ◦ 一般的な Image datasets において相関行列は与えられない ◦ 本論文では data driven な手法で作成する ◦ dataset 内のラベルの共起関係から相関行列を作成 ◦ 条件付き確率 𝑝 𝐿𝑗|𝐿𝑖 を用いて相関行列を構成する 𝑃𝑖𝑗 = 𝑃 𝐿𝑗|𝐿𝑖 = 𝑀𝑖𝑗 𝑁𝑖 𝑀𝑖𝑗 : ラベル 𝐿𝑖, 𝐿𝑗 の共起回数 𝑁𝑖 : ラベル 𝐿𝑖 の出現回数
  • 9. 提案するGCNのポイント 提案手法(続き) ◦ 二値行列に変換 ◦ 条件付き確率をそのまま使うのはよく無いのでハイパラで調整 ◦ 共起回数はしばしば long-tail な分布 ◦ そのまま使ってしまうと train data に overfit する可能性 ◦ Noisy な エッジを filtering できる ◦ Re-weight ◦ 二値行列では over-smoothing が発生する ◦ “That is, the node features may be over-smoothed such that nodes from different clusters (e.g., kitchen related vs. living room related) may become indistinguishable“ ◦ 要は周辺 node の影響を受け過ぎて区別が付かなくなることを 言ってるっぽい ◦ そこで、自分自身からの伝搬を優先するように edge を重み付け ◦ p もハイパラです 多分 𝐴𝑖,𝑗が抜けている??
  • 13. まとめ ラベルの依存関係を考慮する multi-label classification model を提案 ◦ GCN を用いて label の表現(word embedding) を識別器に変換 ◦ 画像から得られた意味特徴に適用 ◦ 性能の向上を確認 相関行列が与えられない場合でもGCNを適用できる ◦ train dataset 内のラベルの共起関係から相関行列を作成 ◦ ハイパラで調整をくわえることでいい感じに 個人的に色々と気になっているところ ◦ T-SNE による識別器の可視化は確かにそれっぽいが… ◦ Word embedding のおかげでは? ◦ One-hot でやったときはどうなったのか? ◦ One-hot embedding でもそんなに性能が変わらない(????) ◦ どの画像でも、GCN側の入力が同じ ◦ 一体何が学習されているんだ…? ◦ 最後の層より前はほぼ定数と化していて、最後の層だけ逆伝播で更新されている可能性も… ◦ GCNについて最後より前の層についても分析が欲しかった