【論文LT資料】 Exploring the Limits of Weakly Supervised Pretraining (ECCV2018)

Exploring the Limits of
Weakly Supervised Pretraining
【画像処理 & 機械学習】論文LT会！#4
2019.7.4@LPIXEL
俵(@tawatawara)
Dhruv Mahajan Ross Girshick Vignesh Ramanathan Kaiming He
Manohar Paluri Yixuan Li Ashwin Bharambe Laurens van der Maaten
Facebook

きっかけ
Yann LeCun 氏がモデルの公開について Tweet したことで存在を知る.
◦ 色んな方々が Architecture 芸してる昨今だが、シンプルな ResNeXt で最高精度らしい
◦ この間 Google Research が発表した EfficientNet (※full model(B7)は未公開) よりも上
◦ 使わせていただく可能性もあるし内容にも興味が湧いたので読むことに
https://twitter.com/ylecun/status/1142816384319139841

概要
モチベーション
◦ 画像系のDNNは ImageNet Datasetで事前学習するのがデファクトになっている
◦ 同程度、あるいはもっと大規模な dataset による事前学習の知見は少ない
やったこと
◦ 大規模な ”wild” dataset (Instagram から取得) を用いた事前学習の検証
◦ ラベルは Instagram の hashtag を利用する. data cleaning も大して行わない. => Low Cost
◦ 一方で, ラベルの noisy さや画像の分布の偏りが性能悪化につながる可能性がある
◦ 複数軸での検証
◦ dataset の量, 事前学習させる hashtag の種類 ( “hashtag engineering” ) など
結果からの主張
◦ 事前学習時のラベル空間(今回だと hashtag の種類)がデータ量と同様に性能に影響
◦ 既存のネットワーク構造は ImageNet に合わせすぎているのではないか
◦ よく使われる ImageNet dataset (ImageNet-1k) で評価できる性能には限界がある
◦ 大規模な hashtag prediction の事前学習を行うと localization の性能が悪化する可能性あり

Dataset の準備
Instagram Dataset
◦ 画像の取得
◦ 取得する画像の hashtag の集合を選ぶ
◦ 上記の集合に含まれる hashtag が少なくとも一つ付いている画像を Instagram から取得
◦ Hashtag の処理
◦ WordNet を用いて同義語などを一つにまとめる
◦ Hashtag は全て標準形(canonical form) に直し, 選んだ hashtag 集合に含まれないものは除外
◦ 使う hashtag の種類で dataset をいくつか作成しておく
◦ 1.5k set: hashtag の種類を ImageNet(1000種) に寄せたもの
◦ 17k set: hashtag の種類を WordNet 内の名詞に寄せる
◦ 8.5k set: 17k set のうち出現頻度の高い hashtag を用いる
ImageNet Dataset
◦ ILSVRCで使用されるもの(ImageNet-1kと呼称)に比べて大きいものを追加で用意
◦ 本来の ImageNet はもっと大きい Dataset なのでそこから作成.
◦ ImageNet-5k, ImageNet-9k (5k, 9k はクラス数).

著者らのお気持ち
本文4ページ目(2.1 Instagram Datasets の締め)より引用
◦ 2.1 節では JFT-300M (Google が作った Dataset、未公開) と比較して収集方法・作成方法
を明示していることを主張していた
◦ “we acknowledge that, similar to JFT-300M, ...” という文を見ると、本当は公開したかっ
たんじゃないかと思われる
◦ データは公開されなかったものの後からモデルが公開された
◦ CC-BY-NC 4.0 license なので商用利用は不可. 研究目的ならOKのはず.
“Despite our eﬀorts to make the dataset content and collection process trans-
parent, we acknowledge that, similar to JFT-300M, it is not possible for other
research groups to know exactly which images we used nor to download them
en masse. Hence it is not possible for others to replicate our results at this time.
However, we believe that it is better if we undertake this study and share the
results with the community than to not publish the results.”

学習モデル
Model
◦ ResNeXt101_32x 𝐶d を使用する (𝐶 = 4, 8, 16, 32, 48)
◦ 一般的なのは4. GitHub上で公開が明言されているのは 8,16,32,48. (4は公開してない？)
◦ “We believe our results will generalize to other architectures.”
◦ 比較的シンプルな構造なので正しそう？.
Loss
◦ Instagram Dataset に含まれるサンプルは multi-labeled な場合がある.
◦ ただ, 17k set でも平均ラベル数は 2以下らしい. べき分布だと思われる.
◦ 活性化関数を softmax とし, target との cross entropy を計算.
◦ ここでの target は, k 個のラベルが付いている image なら対応する成分が 1 / k をとる vector.
◦ Multi-label classification なら class ごとに Sigmoid Cross Entropy 取るのが定番では？
◦ 試したけどうまくいかなかったらしい
◦ ラベル付けが noisy であるためか？
◦ “While counter-intuitive given the multi-label data, these findings match similar observations
in [16]. The successful application of sigmoid activations and logistic loss may require
sophisticated label completion techniques [17] and more hyper-parameter search.”

実験(Image Classification)
評価
◦ source task で事前に学習させたのち, target task に対して学習させる
◦ target task に対する性能評価を行う
学習の方法
◦ Full network finetuning: 文字通りネットワーク全体を fine-tuning
◦ Feature transfer: 事前に学習させた部分は fix し, 抽出した特徴で logistic regression
主に以下の観点から性能を比較
◦ hashtag vocabulary size
◦ training set size
◦ amount of noise in the hashtag targets
◦ hashtag sampling strategy

結果 (hashtag vocabulary size)
◦ Baseline(灰色)より総じて良い
◦ ImageNet: データ量がほぼ同じなら hashtag size が target task に近い方が良さげ.
◦ CUBE & Places:「17k tags の方がより広範囲をカバーできているからでは？」とのこと

Feature transfer を行なって評価
◦ source task のデータ量が target に対
して少な過ぎる場合に配慮
◦ 3.5M ~ 3.5B の範囲で比較
結果
◦ 億単位の dataset に対して capacity に
よる性能の伸び代がある
◦ 左側ほど capacity による性能差は小さい
◦ 非常に面白いのは左上の結果
◦ 1.5k set(破線) は hashtag の vocabulary
を ImageNet-1k に寄せて作っている
◦ このおかげか、17k set (実線)よりも少ない
データ量で同程度の性能が出せる
◦ 左下の場合は target の class が多いので、
逆に source の class が多い方が性能が良く
なっていることがとてもわかりやすい
結果 (training set size)

結果 (amount of noise, hashtag sampling)
◦ (左図): 本当のノイズを特定するのは非常に困難なので、人為的にノイズを加える
◦ これについても Feature transfer を行なって評価
◦ 結構ノイズに対して強い. 曰く, “These results suggest that label noise may be a limited issue if
networks are trained on billions of images. ”
◦ (右図): data sampling 方法をいくつか比較 (これも Feature transfer)
◦ resampling した方が良いだろう結果
IG-1B-17k,
32x16d
IG-1B-17k,
32x4d

ImageNet-1M-1k vs. Instagram-940M-1.5k
ここでの検証
◦ model-capacity による伸び代はデータ量
に依存するか？
◦ データ量が増えた時に, model-capacity
は bottleneck になるのか？
結果
◦ ImageNet をスクラッチで学習させる方は
model-capacity を増やしてもサチってる
ように見える
◦ Instagram で pre-training → ImageNet
で fine-tuning の方は、model-capacity
を増やすことによる伸び代が存在

実験・結果 (object detection ではどうか?)
Fine-tuning について
◦ ImageNet で pre-training した場合
とハイパラが結構変わるらしい
◦ 学習率が全然違う
結果
◦ まず low-capacity だと性能が悪い
◦ model-capacity を増やすことで性能
は上がるものの、ImageNet で pre-
training した場合との差は微妙
◦ 著者曰く、spatial localization には悪
影響を及ぼしていそうだとのこと
◦ 原因については特に言及がない(?)

まとめ
Instagram から取得した大規模 dataset による事前学習の検証
◦ 数億枚の画像データ. manual annotation や data cleaning は(ほぼ)行なっていない.
◦ ラベルは(選択はするが) 元々ついている hashtag を用いる
◦ ImageNet に寄せた選択・WordNet に寄せた選択を行う
実験では様々な軸で性能を検証
◦ Image Classification
◦ 基本的に従来の ImageNet による学習よりも性能が良い
◦ source task の vocab. を target task の vocab. に合わせた方が良い感じ
◦ source task のノイズが増えても、データが億単位からか target task の性能はそこまで落ちない
◦ データが増えると model-capacity の伸び代が生まれる
◦ Object Detection
◦ Classification に比べると性能は向上しない. むしろ悪化する場合がある.
◦ spatial localization には悪影響？
◦ これに関しては future work として discussion を閉じている

【論文LT資料】 Exploring the Limits of Weakly Supervised Pretraining (ECCV2018)

Recomendados

Recomendados

Mais conteúdo relacionado

Último

Último (20)

Destaque

Destaque (20)

【論文LT資料】 Exploring the Limits of Weakly Supervised Pretraining (ECCV2018)