【論文LT資料】 Exploring the Limits of Weakly Supervised Pretraining (ECCV2018)
1. Exploring the Limits of
Weakly Supervised Pretraining
【画像処理 & 機械学習】論文LT会!#4
2019.7.4@LPIXEL
俵(@tawatawara)
Dhruv Mahajan Ross Girshick Vignesh Ramanathan Kaiming He
Manohar Paluri Yixuan Li Ashwin Bharambe Laurens van der Maaten
Facebook
5. 著者らのお気持ち
本文4ページ目(2.1 Instagram Datasets の締め)より引用
◦ 2.1 節では JFT-300M (Google が作った Dataset、未公開) と比較して収集方法・作成方法
を明示していることを主張していた
◦ “we acknowledge that, similar to JFT-300M, ...” という文を見ると、本当は公開したかっ
たんじゃないかと思われる
◦ データは公開されなかったものの後からモデルが公開された
◦ CC-BY-NC 4.0 license なので商用利用は不可. 研究目的ならOKのはず.
“Despite our efforts to make the dataset content and collection process trans-
parent, we acknowledge that, similar to JFT-300M, it is not possible for other
research groups to know exactly which images we used nor to download them
en masse. Hence it is not possible for others to replicate our results at this time.
However, we believe that it is better if we undertake this study and share the
results with the community than to not publish the results.”
6. 学習モデル
Model
◦ ResNeXt101_32x 𝐶d を使用する (𝐶 = 4, 8, 16, 32, 48)
◦ 一般的なのは4. GitHub上で公開が明言されているのは 8,16,32,48. (4は公開してない?)
◦ “We believe our results will generalize to other architectures.”
◦ 比較的シンプルな構造なので正しそう?.
Loss
◦ Instagram Dataset に含まれるサンプルは multi-labeled な場合がある.
◦ ただ, 17k set でも平均ラベル数は 2以下らしい. べき分布だと思われる.
◦ 活性化関数を softmax とし, target との cross entropy を計算.
◦ ここでの target は, k 個のラベルが付いている image なら 対応する成分が 1 / k をとる vector.
◦ Multi-label classification なら class ごとに Sigmoid Cross Entropy 取るのが定番では?
◦ 試したけどうまくいかなかったらしい
◦ ラベル付けが noisy であるためか?
◦ “While counter-intuitive given the multi-label data, these findings match similar observations
in [16]. The successful application of sigmoid activations and logistic loss may require
sophisticated label completion techniques [17] and more hyper-parameter search.”
7. 実験(Image Classification)
評価
◦ source task で事前に学習させたのち, target task に対して学習させる
◦ target task に対する性能評価を行う
学習の方法
◦ Full network finetuning: 文字通りネットワーク全体を fine-tuning
◦ Feature transfer: 事前に学習させた部分は fix し, 抽出した特徴で logistic regression
主に以下の観点から性能を比較
◦ hashtag vocabulary size
◦ training set size
◦ amount of noise in the hashtag targets
◦ hashtag sampling strategy
10. 結果 (amount of noise, hashtag sampling)
◦ (左図): 本当のノイズを特定するのは非常に困難なので、人為的にノイズを加える
◦ これについても Feature transfer を行なって評価
◦ 結構ノイズに対して強い. 曰く, “These results suggest that label noise may be a limited issue if
networks are trained on billions of images. ”
◦ (右図): data sampling 方法をいくつか比較 (これも Feature transfer)
◦ resampling した方が良いだろう結果
IG-1B-17k,
32x16d
IG-1B-17k,
32x4d