【論文LT資料】 CVPR2019 の "Multi-Label" と名の付く論文を紹介 Part2

CVPR2019 Accepted Papers から
multi-labelと名の付くものをいくつかざっくり紹介
【画像処理 & 機械学習】論文LT会！#3
2019.6.7 @LPIXEL
俵(@tawatawara)
Part2

Multi-Label Classification (前回資料より)
1枚の画像に対して複数の Label が付いている識別問題
◦ 複数の物体が写っている、複数の属性を持っている、など
◦ ImageNet は1000クラス中1つだけ付く => Multi-Class (Single-Label) Classification
◦ 一般的にクラスの出現回数が(超)不均衡であることが多い
https://www.kaggle.com/c/human-protein-atlas-image-classification
Kaggle コンペでの例
◦ タンパク質コンペ(object)
◦ 細胞の画像に 28 クラスからラベル付け
◦ train: 約3万, test: 約1万
◦ 最高頻度：12885回
◦ 最低頻度：11回
◦ 壺コンペ (object and attribute)
◦ 美術品の画像に 1103 クラスからラベル付け
◦ train:約10万, test:約8千(stage1)→約4万(stage2)
◦ 最高頻度: 19970回
◦ 最低頻度: 1回 https://www.kaggle.com/c/imet-2019-fgvc6

Class Imbalance Problem
◦ よく出現する class と稀にしか出現しない class (大抵めっちゃ少ない) の差が凄まじい
◦ Label を複数付けるため、(おそらく) single-label よりもひどい
Incomplete and Noisy Labels
◦ single-label に比べてアノテーションがとても大変
◦ 対応する label が全部ついていなかったり、誤ったラベルが付いたりしやすい
Interactions between Classes
◦ 同じ画像にラベル付けされたクラスが独立とは限らない
◦ 何らかの関係性を識別に利用できる可能性がある
Multi-Label Classification (前回資料より)

Class Imbalance Problem
Incomplete and Noisy Labels (and Interactions between Classes)
Interactions between Classes
CVPR2019 で “multi-label” と名の付くもの
[Oral, Poster] LaSO: Label-Set Operations networks for multi-label few-shot learning
(Alfassy et al.)
[Poster] Learning a Deep ConvNet for Multi-label Classification with Partial Labels
(Durand et al.)
[Poster] Multi-Label Image Recognition with Graph Convolutional Networks
(Chen et al.)
[Poster] Visual Attention Consistency under Image Transforms for Multi-label Image
Classification (Guo et al.)
前回紹介
した2本
やっぱり
発見
できず
今回紹介

Multi-Label Image Recognition with
Graph Convolutional Networks
Zhao-Min Chen1,2, Xiu-Shen Wei2, Peng Wang3, and Yanwen Guo1
1National Key Laboratory for Novel Software Technology, Nanjing University, China
2Megvii Research Nanjing, Megvii Technology, China
3School of Computer Science, The University of Adelaide, Australia

概要
モチベーション
◦ 画像に対する multi-label recognition において、
class の依存関係を考慮したい
◦ ただし、依存関係は明示されていないものとする
提案手法
◦ class に対応する分散表現(e.g. word embedding)
を node の feature とする GCN
◦ 相関行列は dataset 内の共起ベースで構築
◦ GCNの出力(重み行列)を、CNNで抽出した意味特徴
に対して識別器として用いる
特徴
◦ 依存関係(相関行列)が not given
◦ 学習された識別器(上述の重み)は class の依存関係
(?)を反映したものになっている

モデル全体像
通常の
Fully-Connect
の代わりに使用

提案するGCNのポイント
通常のGCN
◦ 入力: 各 node の特徴ベクトルを並べた行列 𝐻0
と相関行列 𝐴
◦ 学習させるパラメータ: 変換行列 𝑊 𝑙
(𝑙 = 0,1, . . , 𝐿 − 1)
◦ Stack 数(𝐿) 分繰り返し適用
提案手法.
◦ 相関行列 𝐴 は not given.
◦ 一般的な Image datasets において相関行列は与えられない
◦ 本論文では data driven な手法で作成する
◦ dataset 内のラベルの共起関係から相関行列を作成
◦ 条件付き確率 𝑝 𝐿𝑗|𝐿𝑖 を用いて相関行列を構成する
𝑃𝑖𝑗 = 𝑃 𝐿𝑗|𝐿𝑖 =
𝑀𝑖𝑗
𝑁𝑖
𝑀𝑖𝑗 : ラベル 𝐿𝑖, 𝐿𝑗 の共起回数
𝑁𝑖 : ラベル 𝐿𝑖 の出現回数

提案するGCNのポイント
提案手法(続き)
◦ 二値行列に変換
◦ 条件付き確率をそのまま使うのはよく無いのでハイパラで調整
◦ 共起回数はしばしば long-tail な分布
◦ そのまま使ってしまうと train data に overfit する可能性
◦ Noisy なエッジを filtering できる
◦ Re-weight
◦ 二値行列では over-smoothing が発生する
◦ “That is, the node features may be over-smoothed such
that nodes from different clusters (e.g., kitchen related vs.
living room related) may become indistinguishable“
◦ 要は周辺 node の影響を受け過ぎて区別が付かなくなることを
言ってるっぽい
◦ そこで、自分自身からの伝搬を優先するように edge を重み付け
◦ p もハイパラです
多分 𝐴𝑖,𝑗が抜けている??

t-SNE による意味特徴の可視化

まとめ
ラベルの依存関係を考慮する multi-label classification model を提案
◦ GCN を用いて label の表現(word embedding) を識別器に変換
◦ 画像から得られた意味特徴に適用
◦ 性能の向上を確認
相関行列が与えられない場合でもGCNを適用できる
◦ train dataset 内のラベルの共起関係から相関行列を作成
◦ ハイパラで調整をくわえることでいい感じに
個人的に色々と気になっているところ
◦ T-SNE による識別器の可視化は確かにそれっぽいが…
◦ Word embedding のおかげでは？
◦ One-hot でやったときはどうなったのか？
◦ One-hot embedding でもそんなに性能が変わらない(????)
◦ どの画像でも、GCN側の入力が同じ
◦ 一体何が学習されているんだ…?
◦ 最後の層より前はほぼ定数と化していて、最後の層だけ逆伝播で更新されている可能性も…
◦ GCNについて最後より前の層についても分析が欲しかった

【論文LT資料】 CVPR2019 の "Multi-Label" と名の付く論文を紹介 Part2

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

【論文LT資料】 CVPR2019 の "Multi-Label" と名の付く論文を紹介 Part2