SlideShare uma empresa Scribd logo
1 de 13
Exploring the Limits of
Weakly Supervised Pretraining
【画像処理 & 機械学習】論文LT会!#4
2019.7.4@LPIXEL
俵(@tawatawara)
Dhruv Mahajan Ross Girshick Vignesh Ramanathan Kaiming He
Manohar Paluri Yixuan Li Ashwin Bharambe Laurens van der Maaten
Facebook
きっかけ
Yann LeCun 氏がモデルの公開について Tweet したことで存在を知る.
◦ 色んな方々が Architecture 芸してる昨今だが、シンプルな ResNeXt で最高精度らしい
◦ この間 Google Research が発表した EfficientNet (※full model(B7)は未公開) よりも上
◦ 使わせていただく可能性もあるし内容にも興味が湧いたので読むことに
https://twitter.com/ylecun/status/1142816384319139841
概要
モチベーション
◦ 画像系のDNNは ImageNet Datasetで事前学習するのがデファクトになっている
◦ 同程度、あるいはもっと大規模な dataset による事前学習の知見は少ない
やったこと
◦ 大規模な ”wild” dataset (Instagram から取得) を用いた事前学習の検証
◦ ラベルは Instagram の hashtag を利用する. data cleaning も大して行わない. => Low Cost
◦ 一方で, ラベルの noisy さや画像の分布の偏りが性能悪化につながる可能性がある
◦ 複数軸での検証
◦ dataset の量, 事前学習させる hashtag の種類 ( “hashtag engineering” ) など
結果からの主張
◦ 事前学習時のラベル空間(今回だと hashtag の種類)がデータ量と同様に性能に影響
◦ 既存のネットワーク構造は ImageNet に合わせすぎているのではないか
◦ よく使われる ImageNet dataset (ImageNet-1k) で評価できる性能には限界がある
◦ 大規模な hashtag prediction の事前学習を行うと localization の性能が悪化する可能性あり
Dataset の準備
Instagram Dataset
◦ 画像の取得
◦ 取得する画像の hashtag の集合を選ぶ
◦ 上記の集合に含まれる hashtag が少なくとも一つ付いている画像を Instagram から取得
◦ Hashtag の処理
◦ WordNet を用いて同義語などを一つにまとめる
◦ Hashtag は全て標準形(canonical form) に直し, 選んだ hashtag 集合に含まれないものは除外
◦ 使う hashtag の種類で dataset をいくつか作成しておく
◦ 1.5k set: hashtag の種類を ImageNet(1000種) に寄せたもの
◦ 17k set: hashtag の種類を WordNet 内の名詞に寄せる
◦ 8.5k set: 17k set のうち出現頻度の高い hashtag を用いる
ImageNet Dataset
◦ ILSVRCで使用されるもの(ImageNet-1kと呼称)に比べて大きいものを追加で用意
◦ 本来の ImageNet はもっと大きい Dataset なのでそこから作成.
◦ ImageNet-5k, ImageNet-9k (5k, 9k はクラス数).
著者らのお気持ち
本文4ページ目(2.1 Instagram Datasets の締め)より引用
◦ 2.1 節では JFT-300M (Google が作った Dataset、未公開) と比較して収集方法・作成方法
を明示していることを主張していた
◦ “we acknowledge that, similar to JFT-300M, ...” という文を見ると、本当は公開したかっ
たんじゃないかと思われる
◦ データは公開されなかったものの後からモデルが公開された
◦ CC-BY-NC 4.0 license なので商用利用は不可. 研究目的ならOKのはず.
“Despite our efforts to make the dataset content and collection process trans-
parent, we acknowledge that, similar to JFT-300M, it is not possible for other
research groups to know exactly which images we used nor to download them
en masse. Hence it is not possible for others to replicate our results at this time.
However, we believe that it is better if we undertake this study and share the
results with the community than to not publish the results.”
学習モデル
Model
◦ ResNeXt101_32x 𝐶d を使用する (𝐶 = 4, 8, 16, 32, 48)
◦ 一般的なのは4. GitHub上で公開が明言されているのは 8,16,32,48. (4は公開してない?)
◦ “We believe our results will generalize to other architectures.”
◦ 比較的シンプルな構造なので正しそう?.
Loss
◦ Instagram Dataset に含まれるサンプルは multi-labeled な場合がある.
◦ ただ, 17k set でも平均ラベル数は 2以下らしい. べき分布だと思われる.
◦ 活性化関数を softmax とし, target との cross entropy を計算.
◦ ここでの target は, k 個のラベルが付いている image なら 対応する成分が 1 / k をとる vector.
◦ Multi-label classification なら class ごとに Sigmoid Cross Entropy 取るのが定番では?
◦ 試したけどうまくいかなかったらしい
◦ ラベル付けが noisy であるためか?
◦ “While counter-intuitive given the multi-label data, these findings match similar observations
in [16]. The successful application of sigmoid activations and logistic loss may require
sophisticated label completion techniques [17] and more hyper-parameter search.”
実験(Image Classification)
評価
◦ source task で事前に学習させたのち, target task に対して学習させる
◦ target task に対する性能評価を行う
学習の方法
◦ Full network finetuning: 文字通りネットワーク全体を fine-tuning
◦ Feature transfer: 事前に学習させた部分は fix し, 抽出した特徴で logistic regression
主に以下の観点から性能を比較
◦ hashtag vocabulary size
◦ training set size
◦ amount of noise in the hashtag targets
◦ hashtag sampling strategy
結果 (hashtag vocabulary size)
◦ Baseline(灰色)より総じて良い
◦ ImageNet: データ量がほぼ同じなら hashtag size が target task に近い方が良さげ.
◦ CUBE & Places:「17k tags の方がより広範囲をカバーできているからでは?」とのこと
Feature transfer を行なって評価
◦ source task の データ量が target に対
して少な過ぎる場合に配慮
◦ 3.5M ~ 3.5B の範囲で比較
結果
◦ 億単位の dataset に対して capacity に
よる性能の伸び代がある
◦ 左側ほど capacity による性能差は小さい
◦ 非常に面白いのは左上の結果
◦ 1.5k set(破線) は hashtag の vocabulary
を ImageNet-1k に寄せて作っている
◦ このおかげか、17k set (実線)よりも少ない
データ量で同程度の性能が出せる
◦ 左下の場合は target の class が多いので、
逆に source の class が多い方が性能が良く
なっていることがとてもわかりやすい
結果 (training set size)
結果 (amount of noise, hashtag sampling)
◦ (左図): 本当のノイズを特定するのは非常に困難なので、人為的にノイズを加える
◦ これについても Feature transfer を行なって評価
◦ 結構ノイズに対して強い. 曰く, “These results suggest that label noise may be a limited issue if
networks are trained on billions of images. ”
◦ (右図): data sampling 方法をいくつか比較 (これも Feature transfer)
◦ resampling した方が良いだろう結果
IG-1B-17k,
32x16d
IG-1B-17k,
32x4d
ImageNet-1M-1k vs. Instagram-940M-1.5k
ここでの検証
◦ model-capacity による伸び代はデータ量
に依存するか?
◦ データ量が増えた時に, model-capacity
は bottleneck になるのか?
結果
◦ ImageNet をスクラッチで学習させる方は
model-capacity を増やしてもサチってる
ように見える
◦ Instagram で pre-training → ImageNet
で fine-tuning の方は、model-capacity
を増やすことによる伸び代が存在
実験・結果 (object detection ではどうか?)
Fine-tuning について
◦ ImageNet で pre-training した場合
とハイパラが結構変わるらしい
◦ 学習率が全然違う
結果
◦ まず low-capacity だと性能が悪い
◦ model-capacity を増やすことで性能
は上がるものの、ImageNet で pre-
training した場合との差は微妙
◦ 著者曰く、spatial localization には悪
影響を及ぼしていそうだとのこと
◦ 原因については特に言及がない(?)
まとめ
Instagram から取得した大規模 dataset による事前学習の検証
◦ 数億枚の画像データ. manual annotation や data cleaning は(ほぼ)行なっていない.
◦ ラベルは(選択はするが) 元々ついている hashtag を用いる
◦ ImageNet に寄せた選択・WordNet に寄せた選択 を行う
実験では様々な軸で性能を検証
◦ Image Classification
◦ 基本的に従来の ImageNet による学習よりも性能が良い
◦ source task の vocab. を target task の vocab. に合わせた方が良い感じ
◦ source task のノイズが増えても、データが億単位からか target task の性能はそこまで落ちない
◦ データが増えると model-capacity の伸び代が生まれる
◦ Object Detection
◦ Classification に比べると性能は向上しない. むしろ悪化する場合がある.
◦ spatial localization には悪影響?
◦ これに関しては future work として discussion を閉じている

Mais conteúdo relacionado

Último

Histor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slideHistor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slide
vu2urc
 

Último (20)

AWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of TerraformAWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of Terraform
 
TrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
TrustArc Webinar - Stay Ahead of US State Data Privacy Law DevelopmentsTrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
TrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
 
How to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerHow to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected Worker
 
Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024
 
Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)
 
GenAI Risks & Security Meetup 01052024.pdf
GenAI Risks & Security Meetup 01052024.pdfGenAI Risks & Security Meetup 01052024.pdf
GenAI Risks & Security Meetup 01052024.pdf
 
TrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
TrustArc Webinar - Unlock the Power of AI-Driven Data DiscoveryTrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
TrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
 
A Domino Admins Adventures (Engage 2024)
A Domino Admins Adventures (Engage 2024)A Domino Admins Adventures (Engage 2024)
A Domino Admins Adventures (Engage 2024)
 
ProductAnonymous-April2024-WinProductDiscovery-MelissaKlemke
ProductAnonymous-April2024-WinProductDiscovery-MelissaKlemkeProductAnonymous-April2024-WinProductDiscovery-MelissaKlemke
ProductAnonymous-April2024-WinProductDiscovery-MelissaKlemke
 
Automating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps ScriptAutomating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps Script
 
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
 
Histor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slideHistor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slide
 
Strategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a FresherStrategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a Fresher
 
Boost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivityBoost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivity
 
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
04-2024-HHUG-Sales-and-Marketing-Alignment.pptx
 
Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...
 
Handwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsHandwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed texts
 
Real Time Object Detection Using Open CV
Real Time Object Detection Using Open CVReal Time Object Detection Using Open CV
Real Time Object Detection Using Open CV
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdf
 
Partners Life - Insurer Innovation Award 2024
Partners Life - Insurer Innovation Award 2024Partners Life - Insurer Innovation Award 2024
Partners Life - Insurer Innovation Award 2024
 

Destaque

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Destaque (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

【論文LT資料】 Exploring the Limits of Weakly Supervised Pretraining (ECCV2018)

  • 1. Exploring the Limits of Weakly Supervised Pretraining 【画像処理 & 機械学習】論文LT会!#4 2019.7.4@LPIXEL 俵(@tawatawara) Dhruv Mahajan Ross Girshick Vignesh Ramanathan Kaiming He Manohar Paluri Yixuan Li Ashwin Bharambe Laurens van der Maaten Facebook
  • 2. きっかけ Yann LeCun 氏がモデルの公開について Tweet したことで存在を知る. ◦ 色んな方々が Architecture 芸してる昨今だが、シンプルな ResNeXt で最高精度らしい ◦ この間 Google Research が発表した EfficientNet (※full model(B7)は未公開) よりも上 ◦ 使わせていただく可能性もあるし内容にも興味が湧いたので読むことに https://twitter.com/ylecun/status/1142816384319139841
  • 3. 概要 モチベーション ◦ 画像系のDNNは ImageNet Datasetで事前学習するのがデファクトになっている ◦ 同程度、あるいはもっと大規模な dataset による事前学習の知見は少ない やったこと ◦ 大規模な ”wild” dataset (Instagram から取得) を用いた事前学習の検証 ◦ ラベルは Instagram の hashtag を利用する. data cleaning も大して行わない. => Low Cost ◦ 一方で, ラベルの noisy さや画像の分布の偏りが性能悪化につながる可能性がある ◦ 複数軸での検証 ◦ dataset の量, 事前学習させる hashtag の種類 ( “hashtag engineering” ) など 結果からの主張 ◦ 事前学習時のラベル空間(今回だと hashtag の種類)がデータ量と同様に性能に影響 ◦ 既存のネットワーク構造は ImageNet に合わせすぎているのではないか ◦ よく使われる ImageNet dataset (ImageNet-1k) で評価できる性能には限界がある ◦ 大規模な hashtag prediction の事前学習を行うと localization の性能が悪化する可能性あり
  • 4. Dataset の準備 Instagram Dataset ◦ 画像の取得 ◦ 取得する画像の hashtag の集合を選ぶ ◦ 上記の集合に含まれる hashtag が少なくとも一つ付いている画像を Instagram から取得 ◦ Hashtag の処理 ◦ WordNet を用いて同義語などを一つにまとめる ◦ Hashtag は全て標準形(canonical form) に直し, 選んだ hashtag 集合に含まれないものは除外 ◦ 使う hashtag の種類で dataset をいくつか作成しておく ◦ 1.5k set: hashtag の種類を ImageNet(1000種) に寄せたもの ◦ 17k set: hashtag の種類を WordNet 内の名詞に寄せる ◦ 8.5k set: 17k set のうち出現頻度の高い hashtag を用いる ImageNet Dataset ◦ ILSVRCで使用されるもの(ImageNet-1kと呼称)に比べて大きいものを追加で用意 ◦ 本来の ImageNet はもっと大きい Dataset なのでそこから作成. ◦ ImageNet-5k, ImageNet-9k (5k, 9k はクラス数).
  • 5. 著者らのお気持ち 本文4ページ目(2.1 Instagram Datasets の締め)より引用 ◦ 2.1 節では JFT-300M (Google が作った Dataset、未公開) と比較して収集方法・作成方法 を明示していることを主張していた ◦ “we acknowledge that, similar to JFT-300M, ...” という文を見ると、本当は公開したかっ たんじゃないかと思われる ◦ データは公開されなかったものの後からモデルが公開された ◦ CC-BY-NC 4.0 license なので商用利用は不可. 研究目的ならOKのはず. “Despite our efforts to make the dataset content and collection process trans- parent, we acknowledge that, similar to JFT-300M, it is not possible for other research groups to know exactly which images we used nor to download them en masse. Hence it is not possible for others to replicate our results at this time. However, we believe that it is better if we undertake this study and share the results with the community than to not publish the results.”
  • 6. 学習モデル Model ◦ ResNeXt101_32x 𝐶d を使用する (𝐶 = 4, 8, 16, 32, 48) ◦ 一般的なのは4. GitHub上で公開が明言されているのは 8,16,32,48. (4は公開してない?) ◦ “We believe our results will generalize to other architectures.” ◦ 比較的シンプルな構造なので正しそう?. Loss ◦ Instagram Dataset に含まれるサンプルは multi-labeled な場合がある. ◦ ただ, 17k set でも平均ラベル数は 2以下らしい. べき分布だと思われる. ◦ 活性化関数を softmax とし, target との cross entropy を計算. ◦ ここでの target は, k 個のラベルが付いている image なら 対応する成分が 1 / k をとる vector. ◦ Multi-label classification なら class ごとに Sigmoid Cross Entropy 取るのが定番では? ◦ 試したけどうまくいかなかったらしい ◦ ラベル付けが noisy であるためか? ◦ “While counter-intuitive given the multi-label data, these findings match similar observations in [16]. The successful application of sigmoid activations and logistic loss may require sophisticated label completion techniques [17] and more hyper-parameter search.”
  • 7. 実験(Image Classification) 評価 ◦ source task で事前に学習させたのち, target task に対して学習させる ◦ target task に対する性能評価を行う 学習の方法 ◦ Full network finetuning: 文字通りネットワーク全体を fine-tuning ◦ Feature transfer: 事前に学習させた部分は fix し, 抽出した特徴で logistic regression 主に以下の観点から性能を比較 ◦ hashtag vocabulary size ◦ training set size ◦ amount of noise in the hashtag targets ◦ hashtag sampling strategy
  • 8. 結果 (hashtag vocabulary size) ◦ Baseline(灰色)より総じて良い ◦ ImageNet: データ量がほぼ同じなら hashtag size が target task に近い方が良さげ. ◦ CUBE & Places:「17k tags の方がより広範囲をカバーできているからでは?」とのこと
  • 9. Feature transfer を行なって評価 ◦ source task の データ量が target に対 して少な過ぎる場合に配慮 ◦ 3.5M ~ 3.5B の範囲で比較 結果 ◦ 億単位の dataset に対して capacity に よる性能の伸び代がある ◦ 左側ほど capacity による性能差は小さい ◦ 非常に面白いのは左上の結果 ◦ 1.5k set(破線) は hashtag の vocabulary を ImageNet-1k に寄せて作っている ◦ このおかげか、17k set (実線)よりも少ない データ量で同程度の性能が出せる ◦ 左下の場合は target の class が多いので、 逆に source の class が多い方が性能が良く なっていることがとてもわかりやすい 結果 (training set size)
  • 10. 結果 (amount of noise, hashtag sampling) ◦ (左図): 本当のノイズを特定するのは非常に困難なので、人為的にノイズを加える ◦ これについても Feature transfer を行なって評価 ◦ 結構ノイズに対して強い. 曰く, “These results suggest that label noise may be a limited issue if networks are trained on billions of images. ” ◦ (右図): data sampling 方法をいくつか比較 (これも Feature transfer) ◦ resampling した方が良いだろう結果 IG-1B-17k, 32x16d IG-1B-17k, 32x4d
  • 11. ImageNet-1M-1k vs. Instagram-940M-1.5k ここでの検証 ◦ model-capacity による伸び代はデータ量 に依存するか? ◦ データ量が増えた時に, model-capacity は bottleneck になるのか? 結果 ◦ ImageNet をスクラッチで学習させる方は model-capacity を増やしてもサチってる ように見える ◦ Instagram で pre-training → ImageNet で fine-tuning の方は、model-capacity を増やすことによる伸び代が存在
  • 12. 実験・結果 (object detection ではどうか?) Fine-tuning について ◦ ImageNet で pre-training した場合 とハイパラが結構変わるらしい ◦ 学習率が全然違う 結果 ◦ まず low-capacity だと性能が悪い ◦ model-capacity を増やすことで性能 は上がるものの、ImageNet で pre- training した場合との差は微妙 ◦ 著者曰く、spatial localization には悪 影響を及ぼしていそうだとのこと ◦ 原因については特に言及がない(?)
  • 13. まとめ Instagram から取得した大規模 dataset による事前学習の検証 ◦ 数億枚の画像データ. manual annotation や data cleaning は(ほぼ)行なっていない. ◦ ラベルは(選択はするが) 元々ついている hashtag を用いる ◦ ImageNet に寄せた選択・WordNet に寄せた選択 を行う 実験では様々な軸で性能を検証 ◦ Image Classification ◦ 基本的に従来の ImageNet による学習よりも性能が良い ◦ source task の vocab. を target task の vocab. に合わせた方が良い感じ ◦ source task のノイズが増えても、データが億単位からか target task の性能はそこまで落ちない ◦ データが増えると model-capacity の伸び代が生まれる ◦ Object Detection ◦ Classification に比べると性能は向上しない. むしろ悪化する場合がある. ◦ spatial localization には悪影響? ◦ これに関しては future work として discussion を閉じている