SlideShare uma empresa Scribd logo
1 de 33
Baixar para ler offline
数式ドリブン教師あり学習
Formula-Driven Supervised Learning (FDSL)
⼤⻄達也,⽥所⿓,中村凌,⼭⽥亮佑,
速⽔亮,中嶋航⼤,⽚岡裕雄
1
http://xpaperchallenge.org/cv
2
■ cvpaper.challenge メタサーベイの⼀環
➤ 2022/03/01〜2022/06/09に実施した調査
➤ 論⽂調査はもちろん,背景・メタ知識も含め収集
➤ 今回はFDSLを中⼼に周辺研究を4つに⼤別し調査
■ イントロダクション
➤ 数式ドリブン教師あり学習 (FDSL)の概観を説明
■ 論⽂サマリ
➤ 各論⽂を簡単に紹介
■ メタサーベイ
➤ 論⽂サマリからメタな知識を収集
本資料の構成
本資料について
3
筆頭編者紹介
❖ ⽥所⿓
➢ Twitter︓@MlTohoku
➢ 所属︓東北⼤学 学部4年
■ cvpaper.challenge (2021/12〜)
➢ 研究の興味
■ 事前学習・OOD Detectionなど
➢ その他活動
■ コンペティションへの参加など
❖ ⼤⻄ 達也
➢ 所属︓⼤阪⼤学 電⼦情報⼯学科 学部1年(休学中)
■ cvpaper.challenge (2021/4〜)
➢ 研究の興味
■ FractalDBのセグメンテーションタスク利⽤
■ 最近はイラストに興味
➢ その他活動
■ イラストを描いています (Twitter:@oca_laful)
代表的な事前学習⼿法
4
教師あり学習
Supervised Learning: SL
● ⼈間が実画像に対して⼿動で教師ラベル付け
● ⼊⼒画像から教師ラベルに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
ゴリラ
258
数式ドリブン教師あり学習
Formula-driven Supervised Learning: FDSL
● ある規則性に基づいた数式から⼈⼯画像を⾃動⽣成
● パラメータを元に⾃動で教師ラベル付け
● ⼊⼒画像から教師ラベルに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
⾃⼰教師あり学習
Self-Supervised Learning: SSL
● 画像のみを⽤いて、⼈間によるラベル付けは不要
● 擬似タスク(Pretext Task)を⾃動的に⽣成
● ⼊⼒画像から擬似タスクに基づき教師あり学習、
それを通して視覚的特徴表現を獲得
90°回転
データセットの例
● ImageNet
● PASCAL VOC
● MS COCO
⾃⼰教師⼿法の例
● Rotation、Jigsaw、MAE
● SimCLR、MoCo (対照学習)
データセットの例
● FractalDB
● Perlin Noise
FDSLを中⼼に4タイプに⼤別
5
❏ 実画像 ⇄ ⼈⼯画像(データを⽣成するか︖)
❏ 教師ラベルあり ⇄ 教師ラベルなし(教師ラベルを⽣成するか?)
という⼆つの軸によって4つ⼤別
⼈⼯ 画像・教師ラベル なし
※ 教師ラベルは⾃⼰教師など外的に付与
実 画像・教師ラベル なし
⼈⼯ 画像・教師ラベル あり
※ 数式から付与される数式教師
Supervised Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル あり
Dead
Leaves
基盤モデル
CLIP
Florence
(FLD-900M)
ImageNet
JFT-300M/3B
画像認識の事前学習モデル
Self-Supervised Learning
FDSLはココ︕
DMLab
FractalDB
TileDB
FDSL
PerlinNoiseDB
Spectrum
The Face Synthetic
Dataset
WMM
Domain
Randomization
StyleGAN - Random
MineRL
FDSLとは何か? - 学習を4タイプに⼤別
6
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
実画像,教師ラベル 有 ̶ 教師あり学習
➢ データxと、対応する教師ラベルyを⽤いた最も⼀般的な学習
➢ 最近では、CLIPやFlorenceなどのFoundation Modelも話題
実画像,教師ラベル 無 ̶ ⾃⼰教師あり学習
➢ 教師なしデータxに対応する、⾃動で得られるカテゴリtを定義
➢ アノテーションコスト削減で事前学習データセットの更なる⼤
規模化
FDSLとは何か? - 学習を4タイプに⼤別
7
合成 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
実 画像・教師ラベル 無
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
Self-Supervised
Learning
FDSLとは何か? - 学習を4タイプに⼤別
8
8
⼈⼯画像,教師ラベル 有(数式から⾃動で教師を付与)
➢ Fractal Pre-Trainingを代表例として、実画像・⼈間教師によ
る事前学習モデルに匹敵する精度を実現
➢ 実画像データセットにおけるデータ収集コストやライセンス、
倫理などの問題に対する解決策に
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
FDSLとは何か? - 学習を4タイプに⼤別
9
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
⼈⼯画像,教師ラベル 無(外的に⾃⼰教師を付与)
➢ ラベルを⽣成できない⼈⼯⽣成画像×⾃⼰教師あり学習
■ 実はノイズ画像からでも視覚特徴を獲得することを実証
➢ 事前学習モデルにより⾼いベースラインのAI構築が可能
Dead Leaves
MineCraftDB
DMLab
合成 画像・教師ラベル 無
Dead
Leaves
Spectrum
WMM
StyleGAN - Random
論⽂紹介
11
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
Pre-training without Natural Images
12
会議 : ACCV2020(Best Paper Honorable Mention Award) / IJCV 2022
著者 : Hirokatsu Kataoka, Kazushige Okayasu, Asato Matsumoto, Eisuke Yamagata, Ryosuke
Yamada, Nakamasa Inoue, Akio Nakamura, and Yutaka Satoh
数式ドリブン教師あり学習の提案
数式から⽣成した画像で事前学習を⾏うことに世界で初めて成功
● ⾃然画像を⽤いず数式から画像データセットを⾃動⽣成・事前学習済みモデル構築
● 実画像⼤規模データセットによる倫理問題やラベル付コストなどの様々な課題が存在
● 数式からフラクタル画像を⽣成、⽣成時の画像に紐づくパラメータを教師ラベルと扱う
● 数式から⽣成した画像からでも画像の特徴表現が獲得できることを⽰した
MV-FractalDB: Formula-driven Supervised Learning for Multi-view Image Recognition
13
会議 : IROS 2021
著者 : Ryosuke Yamada, Ryo Takahashi, Ryota Suzuki, Akio Nakamura, Yusuke Yoshiyasu, Ryusuke
Sagawa, Hirokatsu Kataoka
● 多視点画像認識における3D姿勢ラベル付きデータセットの⾃動構築⽅法を提案
● 従来は三次元物体認識にも関わらずImageNet事前学習モデルを使⽤していた
● 三次元データセットはラベル付の困難さからImageNet規模サイズのデータセットは存在しない
● Iterated Function System (IFS)を3D拡張,三次元フラクタルモデルを⽣成
● 3Dフラクタルモデルを2D画像に投影することで多視点のフラクタル画像を⽣成
FractalDBを三次元に拡張し,多視点画像認識に適⽤
https://ryosuke-yamada.github.io/Multi-view-Fractal-DataBase/
Can Vision Transformers Learn without Natural Images?
会議 : AAAI 2022
著者 : Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata, Nakamasa Inoue,
Yutaka Satoh
● Vision Transformer (ViT)でも、フラクタル画像による事前学習が可能であることを⽰した
○ 従来1400万/3億の実画像を⽤いていたが,実質的にゼロ枚の実画像で事前学習
● SimCLRv2/MoCov2などの実画像を⽤いた⾃⼰教師あり学習よりも⾼い事前学習効果
● CIFAR10においては、ImageNet事前学習モデルと0.4ポイントの僅差
Vision Transformerを実画像ゼロで事前学習
FractalDBの事前学習効果はImageNetに近いことを明らかに
14
Improving Fractal Pre-training
15
会議 : WACV 2022
著者 : Connor Anderson, Ryan Farrell
● SVDを⽤いてIFSのパラメータ探索を効率化,⾊と背景を組み合わせたフラクタル画像を事
前学習に⽤いることで,より良い転移学習が可能になることを⽰した (Fig.7)
● ⼤規模なマルチインスタンス(複数のフラクタル)予測の事前学習を提案,有効性を確認
● フラクタルの事前学習は医療画像のセグメンテーションタスクに有効(Fig.6 Glas)
フラクタル画像の事前学習効果を改善
Formula-driven Supervised Learning with Recursive Tiling Patterns
16
会議 : ICCV 2021 Workshop
著者 : Hirokatsu Kataoka et al.
● 画像全体に敷き詰めるタイリングパターンによるTileDBを⾃動構築
● 正六⾓形に3つの操作(頂点の移動、辺の変形、鏡⾯⽅向の対称移動)を加え画像⽣成
● FractalDBより少ないパラメータセットでデータセットを⾃動構築可能
● FractalDBよりもImageNetに類似するConv.1フィルタを獲得(下図参照)
少ないパラメータのFDSLでも⾼い事前学習効果を確認
Spatiotemporal Initialization for 3D CNNs with Generated Motion Patterns
17
会議 : WACV 2022
著者 : Hirokatsu Kataoka, Eisuke Yamagata, Kensho Hara, Ryusuke Hayashi, Nakamasa Inoue
● Perlin Noiseに基づいてモーションパターンと動画ラベルを同時に⽣成
● Kinetics-400/700のような⼤規模動画データセットの事前学習する前に時空間モデルのパ
ラメータを初期化し、⽬標タスク性能を向上
動き情報をより良く獲得するためのVideo Perlin Noiseを提案
⼈⼯知能による内視鏡画像診断⽀援プラットフォーム
18
会議 : Nippon Laser Igakkaishi
著者 : 野⾥博和
● 深層学習を⽤いた内視鏡画像診断は内視鏡画像&希少症例画像の収集が困難
● Fractal DataBase (FractalDB)の事前学習モデルを利⽤して有⽤性を検証
● ImageNetとの⽐較ではやや劣るが,商⽤利⽤が可能であることから医療現場での利⽤が⾒
込まれる
FractalDBが希少疾患の判別に有⽤であることを⽰唆
19
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Dead Leaves
Random bits
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
合成 画像・教師ラベル 有
シミュレータ
Fractal Pre-training
TileDB
FDSL
Perlin Noise
The Face Synthetic
Dataset
Domain
Randomization
Domain Randomization for Transferring Deep Neural
20
会議 : IROS 2017
著者 : Josh Tpbin et al.
● 様々な幾何学的な物体に対して,アルゴリズムで⽣成されたシンプルなテクスチャでレンダ
リング(⽣成)されたデータのみを使⽤して,実世界で性能が良い検出器を訓練ができるこ
とを発⾒
● 実画像で事前学習を⾏わずに⽣成されたRGB画像のみで学習されたDNNをロボット制御の⽬
的で実世界に移すことを成功した初めての例を⽰した.
⽣成画像で事前学習した検出器が実世界で⼗分な精度を達成
Fake it till you make it: face analysis in the wild using
synthetic data alone
21
会議 : ICCV 2021
著者 : Erroll Wood et al.
● 顔に関するさまざまなタスク(顔推定・ランドマーク推定など)において、合成データの
みでSOTAと同等の精度を達成。
● 従来はドメイン汎化・ドメイン適応⼿法により、実データに対する性能を上げていたが
、⾼品質な合成顔データがあれば、そのまま実データにも適応できる。
合成顔データのみで、あらゆる顔タスクでSOTAと同等
Training Deep Networks with Synthetic Data: Bridging
the Reality Gap by Domain Randomization
22
会議 : CVPR 2018
著者 : Jonathan Tremblay et al.
● シミュレータのパラメータをランダムに調整して、ドメイン汎化性能を向上させる
Domain Randomizationを⾞の検出タスクに利⽤。
● KITII Datasetにおける⾞の検出性能において、合成画像のみで学習させたモデルの精
度は、実画像を学習させたモデルに並ぶ。また、実画像によりFinetuningすることによ
り、更なる精度向上。
Domain Randomizationは、物体検出においても有効
23
合成 画像・教師ラベル 無
実 画像・教師ラベル 無
合成 画像・教師ラベル 有
Supervised
Learning
Self-Supervised
Learning
simCLR
DINO
Masked Auto Encoder
Rotation
Jigsaw Puzzle
Deep Cluster
SEER
BYOL
実 画像・教師ラベル 有
Foundation Model
CLIP
Florence
ImageNet
JFT-300M/3B
大規模データセット
Perlin Noise
Fractal Pre-training
Dead Leaves
MineCraftDB
DMLab
合成 画像・教師ラベル 無
Dead
Leaves
Spectrum
WMM
StyleGAN - Random
Learning to see by Looking at Noise
24
会議 : NeurIPS 2021
著者 : Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba
● 様々な⼈⼯画像データセットで⾃⼰教師あり事前学習を⾏い、複数の分類タスクで性能測定
● VTABを⽤いた実験では,Natural(⾃然画像)のカテゴリでは⾃然画像の事前学習効果が⾼い
○ 事前学習には⾃⼰教師あり学習を使⽤
● Specialized(医療や航空)やStructure(形状や距離情報が重要な)タスクでは,⾃然画像と同等,
あるいは⾃然画像を超える事前学習性能
ランダム⽣成画像の事前学習は構造的表現を獲得可能
メタサーベイ
メタサーベイ
1.論⽂の背景にある知識等に着⽬
a.代表的な評価法と精度の変遷
b.FDSLのトレンド
c.現状の課題点
という部分にフォーカス
26
事前学習効果の評価
27
❖ 評価⽅法︓Fine-Tuning
➢ 事前学習によって獲得したパラメータを初期値として⽤
いて、Target TaskでFine-Tuningした時の性能を測る
➢ Target Taskとしては、ImageNetなどがベンチマークと
して⽤いられる
➢ BackBoneとしては、CNNであればResNet-50をはじめ
としたResNetベースのモデル、ViTであればViT-BやViT-
Lなどがスタンダード
モデル
学習 画像デ
ータ
識
別
器
ラベル
ラベル
あり
ラベル
なし
モデル
学習 画像データ
識
別
器
ラベル
モデル
学習
画像データ
検証⽤データセットの変遷
28
■ 公開されているPretrain済みモデルの評価指標は様々
● 取り組みたいタスクに対して数百のモデル調査が必要
■ ImageNet→Visual Task Adaptation Benchmark (VTAB)
● VTABをテストに⽤いることで評価を⼀般化
○natural,specialized,structuredからなる19の評価タスク
○全タスクの平均スコアで⽐較
● ⽐較からgenerative modelによるPretrainは識別精度が低下することを確認
FDSLのトレンド
29
様々なタスクに対して派⽣
数式から画像を⽣成
3D化
3D化
画像をカット&ペースト
⼈物に特化
汎⽤的なモデル
タスクに特化したモデル
交通に特化
実世界の
物体検出に特化
課題︓画像⽣成に時間がかかる
30
⼀度⽣成を開始すれば作業は不必要だが,時間がかかる
■3D合成データ
○ 合成する画像は⼈⼿で撮影
○ cut, pasete and learnではBigBIRDを使⽤
○ 背景にはUW Scenes Dataset を使⽤
○ 拡張は容易だが,撮影の労⼒が膨⼤
■Fake It Till You Make It
○ NVIDIA M60 GPUを150台使⽤して2⽇
課題︓⼤量のデータを学習するためのマシンリソースが必要
31
ABCIのような⼤規模なマシンリソースが求められる
学習効果がある形状パターンを掴むには膨⼤な探索実験が必要
試⾏回数が識別精度向上に直結
■GPU,CPU
○ ⼤規模な画像の学習にGPU,画像⽣成にCPUが必要
○ Fake It Till You Make ItはNVIDIA M60 GPUを150台
使⽤
■ストレージ
○ ⽣成画像は学習が完了まで保存
○ FractalDB︓100万枚〜1,000万枚(512pix ×512 pix)
○ dead leaves︓10.5万枚(128 pix ×128 pix)
○ Fake It Till You Make It︓100万枚(512pix ×512 pix)
課題︓事前学習に効果的なデータがわからない
32
探索実験からパターンを決定するが,効果は未知数
■パラメータごとに探索実験が必要
○ ⽣成する画像枚数によって変更
○ パラメータ数が変われば再度探索実験する必要がある
○ 探索実験はマシンリソースに⼤きく依存
■⽣成画像は最適解か
○ 現状、事前学習効果は実験的に明らかにしている
○ 実画像と特徴表現を⽐較した結果、初期層のみ特徴抽出器とし
て有効であることを確認
課題︓⾳声・⾔語もできる︖︖
33
半教師あり学習,⾃⼰教師あり学習が存在
■Noisy Student
○ ⾳声データにノイズを加えて学習
○ SSLより精度が⾼く,SoTAを達成
■数式ドリブン教師あり学習で⾳声認識タスクを解くには
○ 数式⽣成可能な⾳声パターンを調査
○ カテゴリをどのように定義するか
○ 下流タスクに適合する⾳声を⽣成できるか
■数式ドリブン教師あり学習で⾔語タスクを解くには
○ 意味のある⾔語を⽣成できるか
○ ⾔語は英語で良いのか
○ ⽂法,単語

Mais conteúdo relacionado

Mais procurados

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文cvpaper. challenge
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 

Mais procurados (20)

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 

Semelhante a 【メタサーベイ】数式ドリブン教師あり学習

Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Taiga Nomi
 
【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3Dにする【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3DにするLIFULL Co., Ltd.
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さんAkira Shibata
 
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfAkira Shibata
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the FutureDeep Learning JP
 
深層学習基礎勉強会資料
深層学習基礎勉強会資料深層学習基礎勉強会資料
深層学習基礎勉強会資料shinya murakawa
 
PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?Hokuto Kagaya
 
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)Toshihiko Yamakami
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAHiroki Nakahara
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)kunihikokaneko1
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料Shohei Hido
 
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyamaPreferred Networks
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2Kuniyuki Takahashi
 
Hello deeplearning!
Hello deeplearning!Hello deeplearning!
Hello deeplearning!T2C_
 

Semelhante a 【メタサーベイ】数式ドリブン教師あり学習 (20)

20150930
2015093020150930
20150930
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷Deep learningの概要とドメインモデルの変遷
Deep learningの概要とドメインモデルの変遷
 
【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3Dにする【Ltech#11】ディープラーニングで間取り図を3Dにする
【Ltech#11】ディープラーニングで間取り図を3Dにする
 
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
大規模言語モデル開発を支える分散学習技術 - 東京工業大学横田理央研究室の藤井一喜さん
 
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
深層学習基礎勉強会資料
深層学習基礎勉強会資料深層学習基礎勉強会資料
深層学習基礎勉強会資料
 
SOINN PBR
SOINN PBRSOINN PBR
SOINN PBR
 
PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?PFI成果発表会2014発表資料 Where Do You Look?
PFI成果発表会2014発表資料 Where Do You Look?
 
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)サルでもわかるディープラーニング入門 (2017年) (In Japanese)
サルでもわかるディープラーニング入門 (2017年) (In Japanese)
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
 
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama20171201 dll#05 名古屋_pfn_hiroshi_maruyama
20171201 dll#05 名古屋_pfn_hiroshi_maruyama
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
 
Hello deeplearning!
Hello deeplearning!Hello deeplearning!
Hello deeplearning!
 

Último

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Último (9)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

【メタサーベイ】数式ドリブン教師あり学習

  • 1. 数式ドリブン教師あり学習 Formula-Driven Supervised Learning (FDSL) ⼤⻄達也,⽥所⿓,中村凌,⼭⽥亮佑, 速⽔亮,中嶋航⼤,⽚岡裕雄 1 http://xpaperchallenge.org/cv
  • 2. 2 ■ cvpaper.challenge メタサーベイの⼀環 ➤ 2022/03/01〜2022/06/09に実施した調査 ➤ 論⽂調査はもちろん,背景・メタ知識も含め収集 ➤ 今回はFDSLを中⼼に周辺研究を4つに⼤別し調査 ■ イントロダクション ➤ 数式ドリブン教師あり学習 (FDSL)の概観を説明 ■ 論⽂サマリ ➤ 各論⽂を簡単に紹介 ■ メタサーベイ ➤ 論⽂サマリからメタな知識を収集 本資料の構成 本資料について
  • 3. 3 筆頭編者紹介 ❖ ⽥所⿓ ➢ Twitter︓@MlTohoku ➢ 所属︓東北⼤学 学部4年 ■ cvpaper.challenge (2021/12〜) ➢ 研究の興味 ■ 事前学習・OOD Detectionなど ➢ その他活動 ■ コンペティションへの参加など ❖ ⼤⻄ 達也 ➢ 所属︓⼤阪⼤学 電⼦情報⼯学科 学部1年(休学中) ■ cvpaper.challenge (2021/4〜) ➢ 研究の興味 ■ FractalDBのセグメンテーションタスク利⽤ ■ 最近はイラストに興味 ➢ その他活動 ■ イラストを描いています (Twitter:@oca_laful)
  • 4. 代表的な事前学習⼿法 4 教師あり学習 Supervised Learning: SL ● ⼈間が実画像に対して⼿動で教師ラベル付け ● ⼊⼒画像から教師ラベルに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 ゴリラ 258 数式ドリブン教師あり学習 Formula-driven Supervised Learning: FDSL ● ある規則性に基づいた数式から⼈⼯画像を⾃動⽣成 ● パラメータを元に⾃動で教師ラベル付け ● ⼊⼒画像から教師ラベルに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 ⾃⼰教師あり学習 Self-Supervised Learning: SSL ● 画像のみを⽤いて、⼈間によるラベル付けは不要 ● 擬似タスク(Pretext Task)を⾃動的に⽣成 ● ⼊⼒画像から擬似タスクに基づき教師あり学習、 それを通して視覚的特徴表現を獲得 90°回転 データセットの例 ● ImageNet ● PASCAL VOC ● MS COCO ⾃⼰教師⼿法の例 ● Rotation、Jigsaw、MAE ● SimCLR、MoCo (対照学習) データセットの例 ● FractalDB ● Perlin Noise
  • 5. FDSLを中⼼に4タイプに⼤別 5 ❏ 実画像 ⇄ ⼈⼯画像(データを⽣成するか︖) ❏ 教師ラベルあり ⇄ 教師ラベルなし(教師ラベルを⽣成するか?) という⼆つの軸によって4つ⼤別 ⼈⼯ 画像・教師ラベル なし ※ 教師ラベルは⾃⼰教師など外的に付与 実 画像・教師ラベル なし ⼈⼯ 画像・教師ラベル あり ※ 数式から付与される数式教師 Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル あり Dead Leaves 基盤モデル CLIP Florence (FLD-900M) ImageNet JFT-300M/3B 画像認識の事前学習モデル Self-Supervised Learning FDSLはココ︕ DMLab FractalDB TileDB FDSL PerlinNoiseDB Spectrum The Face Synthetic Dataset WMM Domain Randomization StyleGAN - Random MineRL
  • 6. FDSLとは何か? - 学習を4タイプに⼤別 6 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training 実画像,教師ラベル 有 ̶ 教師あり学習 ➢ データxと、対応する教師ラベルyを⽤いた最も⼀般的な学習 ➢ 最近では、CLIPやFlorenceなどのFoundation Modelも話題
  • 7. 実画像,教師ラベル 無 ̶ ⾃⼰教師あり学習 ➢ 教師なしデータxに対応する、⾃動で得られるカテゴリtを定義 ➢ アノテーションコスト削減で事前学習データセットの更なる⼤ 規模化 FDSLとは何か? - 学習を4タイプに⼤別 7 合成 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training 実 画像・教師ラベル 無 simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL Self-Supervised Learning
  • 8. FDSLとは何か? - 学習を4タイプに⼤別 8 8 ⼈⼯画像,教師ラベル 有(数式から⾃動で教師を付与) ➢ Fractal Pre-Trainingを代表例として、実画像・⼈間教師によ る事前学習モデルに匹敵する精度を実現 ➢ 実画像データセットにおけるデータ収集コストやライセンス、 倫理などの問題に対する解決策に 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 9. FDSLとは何か? - 学習を4タイプに⼤別 9 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training ⼈⼯画像,教師ラベル 無(外的に⾃⼰教師を付与) ➢ ラベルを⽣成できない⼈⼯⽣成画像×⾃⼰教師あり学習 ■ 実はノイズ画像からでも視覚特徴を獲得することを実証 ➢ 事前学習モデルにより⾼いベースラインのAI構築が可能 Dead Leaves MineCraftDB DMLab 合成 画像・教師ラベル 無 Dead Leaves Spectrum WMM StyleGAN - Random
  • 11. 11 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 12. Pre-training without Natural Images 12 会議 : ACCV2020(Best Paper Honorable Mention Award) / IJCV 2022 著者 : Hirokatsu Kataoka, Kazushige Okayasu, Asato Matsumoto, Eisuke Yamagata, Ryosuke Yamada, Nakamasa Inoue, Akio Nakamura, and Yutaka Satoh 数式ドリブン教師あり学習の提案 数式から⽣成した画像で事前学習を⾏うことに世界で初めて成功 ● ⾃然画像を⽤いず数式から画像データセットを⾃動⽣成・事前学習済みモデル構築 ● 実画像⼤規模データセットによる倫理問題やラベル付コストなどの様々な課題が存在 ● 数式からフラクタル画像を⽣成、⽣成時の画像に紐づくパラメータを教師ラベルと扱う ● 数式から⽣成した画像からでも画像の特徴表現が獲得できることを⽰した
  • 13. MV-FractalDB: Formula-driven Supervised Learning for Multi-view Image Recognition 13 会議 : IROS 2021 著者 : Ryosuke Yamada, Ryo Takahashi, Ryota Suzuki, Akio Nakamura, Yusuke Yoshiyasu, Ryusuke Sagawa, Hirokatsu Kataoka ● 多視点画像認識における3D姿勢ラベル付きデータセットの⾃動構築⽅法を提案 ● 従来は三次元物体認識にも関わらずImageNet事前学習モデルを使⽤していた ● 三次元データセットはラベル付の困難さからImageNet規模サイズのデータセットは存在しない ● Iterated Function System (IFS)を3D拡張,三次元フラクタルモデルを⽣成 ● 3Dフラクタルモデルを2D画像に投影することで多視点のフラクタル画像を⽣成 FractalDBを三次元に拡張し,多視点画像認識に適⽤ https://ryosuke-yamada.github.io/Multi-view-Fractal-DataBase/
  • 14. Can Vision Transformers Learn without Natural Images? 会議 : AAAI 2022 著者 : Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata, Nakamasa Inoue, Yutaka Satoh ● Vision Transformer (ViT)でも、フラクタル画像による事前学習が可能であることを⽰した ○ 従来1400万/3億の実画像を⽤いていたが,実質的にゼロ枚の実画像で事前学習 ● SimCLRv2/MoCov2などの実画像を⽤いた⾃⼰教師あり学習よりも⾼い事前学習効果 ● CIFAR10においては、ImageNet事前学習モデルと0.4ポイントの僅差 Vision Transformerを実画像ゼロで事前学習 FractalDBの事前学習効果はImageNetに近いことを明らかに 14
  • 15. Improving Fractal Pre-training 15 会議 : WACV 2022 著者 : Connor Anderson, Ryan Farrell ● SVDを⽤いてIFSのパラメータ探索を効率化,⾊と背景を組み合わせたフラクタル画像を事 前学習に⽤いることで,より良い転移学習が可能になることを⽰した (Fig.7) ● ⼤規模なマルチインスタンス(複数のフラクタル)予測の事前学習を提案,有効性を確認 ● フラクタルの事前学習は医療画像のセグメンテーションタスクに有効(Fig.6 Glas) フラクタル画像の事前学習効果を改善
  • 16. Formula-driven Supervised Learning with Recursive Tiling Patterns 16 会議 : ICCV 2021 Workshop 著者 : Hirokatsu Kataoka et al. ● 画像全体に敷き詰めるタイリングパターンによるTileDBを⾃動構築 ● 正六⾓形に3つの操作(頂点の移動、辺の変形、鏡⾯⽅向の対称移動)を加え画像⽣成 ● FractalDBより少ないパラメータセットでデータセットを⾃動構築可能 ● FractalDBよりもImageNetに類似するConv.1フィルタを獲得(下図参照) 少ないパラメータのFDSLでも⾼い事前学習効果を確認
  • 17. Spatiotemporal Initialization for 3D CNNs with Generated Motion Patterns 17 会議 : WACV 2022 著者 : Hirokatsu Kataoka, Eisuke Yamagata, Kensho Hara, Ryusuke Hayashi, Nakamasa Inoue ● Perlin Noiseに基づいてモーションパターンと動画ラベルを同時に⽣成 ● Kinetics-400/700のような⼤規模動画データセットの事前学習する前に時空間モデルのパ ラメータを初期化し、⽬標タスク性能を向上 動き情報をより良く獲得するためのVideo Perlin Noiseを提案
  • 18. ⼈⼯知能による内視鏡画像診断⽀援プラットフォーム 18 会議 : Nippon Laser Igakkaishi 著者 : 野⾥博和 ● 深層学習を⽤いた内視鏡画像診断は内視鏡画像&希少症例画像の収集が困難 ● Fractal DataBase (FractalDB)の事前学習モデルを利⽤して有⽤性を検証 ● ImageNetとの⽐較ではやや劣るが,商⽤利⽤が可能であることから医療現場での利⽤が⾒ 込まれる FractalDBが希少疾患の判別に有⽤であることを⽰唆
  • 19. 19 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Dead Leaves Random bits Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット 合成 画像・教師ラベル 有 シミュレータ Fractal Pre-training TileDB FDSL Perlin Noise The Face Synthetic Dataset Domain Randomization
  • 20. Domain Randomization for Transferring Deep Neural 20 会議 : IROS 2017 著者 : Josh Tpbin et al. ● 様々な幾何学的な物体に対して,アルゴリズムで⽣成されたシンプルなテクスチャでレンダ リング(⽣成)されたデータのみを使⽤して,実世界で性能が良い検出器を訓練ができるこ とを発⾒ ● 実画像で事前学習を⾏わずに⽣成されたRGB画像のみで学習されたDNNをロボット制御の⽬ 的で実世界に移すことを成功した初めての例を⽰した. ⽣成画像で事前学習した検出器が実世界で⼗分な精度を達成
  • 21. Fake it till you make it: face analysis in the wild using synthetic data alone 21 会議 : ICCV 2021 著者 : Erroll Wood et al. ● 顔に関するさまざまなタスク(顔推定・ランドマーク推定など)において、合成データの みでSOTAと同等の精度を達成。 ● 従来はドメイン汎化・ドメイン適応⼿法により、実データに対する性能を上げていたが 、⾼品質な合成顔データがあれば、そのまま実データにも適応できる。 合成顔データのみで、あらゆる顔タスクでSOTAと同等
  • 22. Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization 22 会議 : CVPR 2018 著者 : Jonathan Tremblay et al. ● シミュレータのパラメータをランダムに調整して、ドメイン汎化性能を向上させる Domain Randomizationを⾞の検出タスクに利⽤。 ● KITII Datasetにおける⾞の検出性能において、合成画像のみで学習させたモデルの精 度は、実画像を学習させたモデルに並ぶ。また、実画像によりFinetuningすることによ り、更なる精度向上。 Domain Randomizationは、物体検出においても有効
  • 23. 23 合成 画像・教師ラベル 無 実 画像・教師ラベル 無 合成 画像・教師ラベル 有 Supervised Learning Self-Supervised Learning simCLR DINO Masked Auto Encoder Rotation Jigsaw Puzzle Deep Cluster SEER BYOL 実 画像・教師ラベル 有 Foundation Model CLIP Florence ImageNet JFT-300M/3B 大規模データセット Perlin Noise Fractal Pre-training Dead Leaves MineCraftDB DMLab 合成 画像・教師ラベル 無 Dead Leaves Spectrum WMM StyleGAN - Random
  • 24. Learning to see by Looking at Noise 24 会議 : NeurIPS 2021 著者 : Manel Baradad, Jonas Wulff, Tongzhou Wang, Phillip Isola, Antonio Torralba ● 様々な⼈⼯画像データセットで⾃⼰教師あり事前学習を⾏い、複数の分類タスクで性能測定 ● VTABを⽤いた実験では,Natural(⾃然画像)のカテゴリでは⾃然画像の事前学習効果が⾼い ○ 事前学習には⾃⼰教師あり学習を使⽤ ● Specialized(医療や航空)やStructure(形状や距離情報が重要な)タスクでは,⾃然画像と同等, あるいは⾃然画像を超える事前学習性能 ランダム⽣成画像の事前学習は構造的表現を獲得可能
  • 27. 事前学習効果の評価 27 ❖ 評価⽅法︓Fine-Tuning ➢ 事前学習によって獲得したパラメータを初期値として⽤ いて、Target TaskでFine-Tuningした時の性能を測る ➢ Target Taskとしては、ImageNetなどがベンチマークと して⽤いられる ➢ BackBoneとしては、CNNであればResNet-50をはじめ としたResNetベースのモデル、ViTであればViT-BやViT- Lなどがスタンダード モデル 学習 画像デ ータ 識 別 器 ラベル ラベル あり ラベル なし モデル 学習 画像データ 識 別 器 ラベル モデル 学習 画像データ
  • 28. 検証⽤データセットの変遷 28 ■ 公開されているPretrain済みモデルの評価指標は様々 ● 取り組みたいタスクに対して数百のモデル調査が必要 ■ ImageNet→Visual Task Adaptation Benchmark (VTAB) ● VTABをテストに⽤いることで評価を⼀般化 ○natural,specialized,structuredからなる19の評価タスク ○全タスクの平均スコアで⽐較 ● ⽐較からgenerative modelによるPretrainは識別精度が低下することを確認
  • 30. 課題︓画像⽣成に時間がかかる 30 ⼀度⽣成を開始すれば作業は不必要だが,時間がかかる ■3D合成データ ○ 合成する画像は⼈⼿で撮影 ○ cut, pasete and learnではBigBIRDを使⽤ ○ 背景にはUW Scenes Dataset を使⽤ ○ 拡張は容易だが,撮影の労⼒が膨⼤ ■Fake It Till You Make It ○ NVIDIA M60 GPUを150台使⽤して2⽇
  • 31. 課題︓⼤量のデータを学習するためのマシンリソースが必要 31 ABCIのような⼤規模なマシンリソースが求められる 学習効果がある形状パターンを掴むには膨⼤な探索実験が必要 試⾏回数が識別精度向上に直結 ■GPU,CPU ○ ⼤規模な画像の学習にGPU,画像⽣成にCPUが必要 ○ Fake It Till You Make ItはNVIDIA M60 GPUを150台 使⽤ ■ストレージ ○ ⽣成画像は学習が完了まで保存 ○ FractalDB︓100万枚〜1,000万枚(512pix ×512 pix) ○ dead leaves︓10.5万枚(128 pix ×128 pix) ○ Fake It Till You Make It︓100万枚(512pix ×512 pix)
  • 32. 課題︓事前学習に効果的なデータがわからない 32 探索実験からパターンを決定するが,効果は未知数 ■パラメータごとに探索実験が必要 ○ ⽣成する画像枚数によって変更 ○ パラメータ数が変われば再度探索実験する必要がある ○ 探索実験はマシンリソースに⼤きく依存 ■⽣成画像は最適解か ○ 現状、事前学習効果は実験的に明らかにしている ○ 実画像と特徴表現を⽐較した結果、初期層のみ特徴抽出器とし て有効であることを確認
  • 33. 課題︓⾳声・⾔語もできる︖︖ 33 半教師あり学習,⾃⼰教師あり学習が存在 ■Noisy Student ○ ⾳声データにノイズを加えて学習 ○ SSLより精度が⾼く,SoTAを達成 ■数式ドリブン教師あり学習で⾳声認識タスクを解くには ○ 数式⽣成可能な⾳声パターンを調査 ○ カテゴリをどのように定義するか ○ 下流タスクに適合する⾳声を⽣成できるか ■数式ドリブン教師あり学習で⾔語タスクを解くには ○ 意味のある⾔語を⽣成できるか ○ ⾔語は英語で良いのか ○ ⽂法,単語