SlideShare a Scribd company logo
Enviar pesquisa
Carregar
Entrar
Cadastre-se
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
Denunciar
ARISE analytics
Seguir
ARISE analytics
31 de Oct de 2022
•
0 gostou
•
490 visualizações
1
de
29
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
31 de Oct de 2022
•
0 gostou
•
490 visualizações
Baixar agora
Baixar para ler offline
Denunciar
Tecnologia
社内で行った「International Conference on Learning Represantation (ICLR)2022読み会」でまとめた資料です。
ARISE analytics
Seguir
ARISE analytics
Recomendados
近年のHierarchical Vision Transformer
Yusuke Uchida
13.4K visualizações
•
46 slides
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
3.8K visualizações
•
52 slides
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
7.8K visualizações
•
26 slides
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
20.5K visualizações
•
29 slides
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno
83.3K visualizações
•
58 slides
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
61.3K visualizações
•
43 slides
Mais conteúdo relacionado
Mais procurados
画像認識と深層学習
Yusuke Uchida
17.5K visualizações
•
174 slides
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
7.4K visualizações
•
43 slides
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
1.6K visualizações
•
45 slides
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
2.4K visualizações
•
15 slides
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
2.4K visualizações
•
15 slides
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
9.3K visualizações
•
56 slides
Mais procurados
(20)
画像認識と深層学習
Yusuke Uchida
•
17.5K visualizações
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
•
7.4K visualizações
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
•
1.6K visualizações
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
•
2.4K visualizações
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
•
2.4K visualizações
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
•
9.3K visualizações
ドメイン適応の原理と応用
Yoshitaka Ushiku
•
5.2K visualizações
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
•
3.6K visualizações
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
•
5.4K visualizações
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
•
1K visualizações
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
•
5.1K visualizações
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
•
2.1K visualizações
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
•
15.4K visualizações
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
•
4.3K visualizações
論文紹介:Multimodal Learning with Transformers: A Survey
Toru Tamaki
•
241 visualizações
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
•
1.4K visualizações
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
•
8.5K visualizações
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
•
14.3K visualizações
Triplet Loss 徹底解説
tancoro
•
11.2K visualizações
ELBO型VAEのダメなところ
KCS Keio Computer Society
•
2.5K visualizações
Mais de ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
159 visualizações
•
32 slides
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
113 visualizações
•
24 slides
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
837 visualizações
•
21 slides
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
536 visualizações
•
18 slides
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
440 visualizações
•
17 slides
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics
462 visualizações
•
21 slides
Mais de ARISE analytics
(15)
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
•
159 visualizações
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
•
113 visualizações
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
•
837 visualizações
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
•
536 visualizações
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
•
440 visualizações
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics
•
462 visualizações
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics
•
676 visualizações
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
•
2.4K visualizações
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics
•
562 visualizações
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics
•
657 visualizações
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics
•
652 visualizações
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
•
27.6K visualizações
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
•
7.7K visualizações
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
•
5.2K visualizações
【論文読み会】Universal Language Model Fine-tuning for Text Classification
ARISE analytics
•
1.9K visualizações
Último
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
226 visualizações
•
38 slides
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
93 visualizações
•
24 slides
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
250 visualizações
•
31 slides
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB - 強化された時系列データ管理・検索機能について -
griddb
7 visualizações
•
46 slides
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
NTT DATA Technology & Innovation
39 visualizações
•
44 slides
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
93 visualizações
•
1 slide
Último
(11)
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
226 visualizações
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
•
93 visualizações
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
250 visualizações
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB - 強化された時系列データ管理・検索機能について -
griddb
•
7 visualizações
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
NTT DATA Technology & Innovation
•
39 visualizações
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
93 visualizações
画像生成AIの問題点
iPride Co., Ltd.
•
127 visualizações
指側面を入力インタフェース化するリング型デバイス
sugiuralab
•
5 visualizações
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
73 visualizações
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
NTT DATA Technology & Innovation
•
442 visualizações
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
83 visualizações
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
1.
[公開情報] ICLR2022論文読み会 「BEiT: BERT Pre-Training
of Image Transformers」 株式会社ARISE analytics MSD. MXU. RENS Team 田中卓磨 ©2022 ARISE analytics Reserved. 2022/10/31
2.
[公開情報] はじめに ©2022 ARISE analytics
Reserved.
3.
[公開情報] 画像のベクトル化 ©2022 ARISE analytics
Reserved. 画像に対して、いい感じのベクトル表現を得 たい ・自己教師あり学習の中間 層: VAE / U-NET 画像に対するクラスタリング・ク ラス分類を 従来の機械学習手法で可能に! 同じような画像は同じようなベクト ルに! ・教師あり学習の最終層付近: ResNet / Xception encode decode Huge CNN 入力=出力 アノテーションされた ラベル
4.
[公開情報] BEiTの着想 ©2022 ARISE analytics
Reserved. 3 自然言語処理の分野ではBERTとい う 自己教師あり学習手法で ベクトル表現が得られるらしい BERTの手法を画像処理の 分野にも適用してみよ う!
5.
[公開情報] BEiTを理解する流れ ©2022 ARISE analytics
Reserved. 4 ① Attention機構を知る ② MLMタスクを知る ③ 画像+Transformerを知る ④ BERTとViTを組み合わせ る BERT ViT BEiT 画像に対する Transformer適用 Transformerを利用した 言語の特徴量作成手法 画像版BERT ① Transformer Attentionを利用した 言語翻訳手法 ② ③ ④ + 画像パッチ のトークン 化
6.
[公開情報] Transformerにおける Attention機構 ©2022 ARISE analytics
Reserved.
7.
[公開情報] Transformer概略 ©2022 ARISE analytics
Reserved. ① ② ③ ① シングルAttention機構 ② マルチヘッドAttention機構 ③ Positional Encoding ④ Transformerブロック ④ 2. [Ashish, et al.]
8.
[公開情報] Attentionの構造 ©2022 ARISE analytics
Reserved. 7 Attention 𝑄, 𝐾, 𝑉 = Softmax 𝑄𝐾𝑇 𝑑𝑘 𝑉 𝑄 = 𝑞1, … , 𝑞𝑛 𝑇 ∈ ℝ𝑛×𝑑𝑘 𝐾 = 𝑘1, … , 𝑘𝑛 𝑇 ∈ ℝ𝑛×𝑑𝑘 𝑉 = 𝑣1, … , 𝑣𝑛 𝑇 ∈ ℝ𝑛×𝑑𝑣 各行への適用 (各行の和が1) 例) ARISE は データ分析 が 得意 k(ARISE) k(データ分 析) k(得意) q(ARISE) 0.4 0.6 0 q(データ分 析) 0.5 0.5 0 q(得意) 0 0.2 0.8 v(ARISE) v(データ分 析) v(得意) 0.4v(ARISE)+0.6v(データ分析) 0.5v(ARISE)+0.5v(データ分析) 0.2v(データ分析)+0.8v(得意)
9.
[公開情報] Multi-Head Attention について ©2022
ARISE analytics Reserved. 8 𝑀𝐻𝐴 𝑄, 𝐾, 𝑉 = ℎ𝑒𝑎𝑑1, … , ℎ𝑒𝑎𝑑ℎ 𝑊𝑂 ℎ𝑒𝑎𝑑𝑖 = Attention 𝑄𝑊 𝑖 𝑄 , 𝐾𝑊𝑖 𝐾 , 𝑉𝑊𝑖 𝑉 𝑊 𝑖 𝑄 ∈ ℝ𝑑×𝑑𝑘 𝑊𝑖 𝐾 ∈ ℝ𝑑×𝑑𝑘 𝑊𝑖 𝑉 ∈ ℝ𝑑×𝑑𝑣 𝑊𝑂 ∈ ℝℎ𝑑𝑣×𝑑 複数種類のAttentionを混ぜたもの
10.
[公開情報] Positional Encoding ©2022 ARISE
analytics Reserved. 9 𝑃𝐸𝑝𝑜𝑠,2𝑖 = sin 𝑝𝑜𝑠 100002𝑖/𝑑 𝑃𝐸𝑝𝑜𝑠,2𝑖+1 = cos 𝑝𝑜𝑠 100002𝑖/𝑑 Input Embedding の pos番目に以下のものを足す 偶数次元 奇数次元 単語位置の情報を付与す る
11.
[公開情報] Transformerブロック ©2022 ARISE analytics
Reserved. 10 Transformer 𝑥 = 𝑧 𝑥′ = norm 𝑥 𝑦 = 𝑀𝐻𝐴 𝑥′ , 𝑥′ , 𝑥′ + 𝑥 𝑦′ = norm(𝑦) 𝑧 = 𝑅𝑒𝐿𝑈 𝑦′ 𝑊1 + 𝑏1 𝑊2 + 𝑏2 + 𝑦 Multi-Head Attention + 残差接続 3層パーセプトロン + 残差接続 𝑥 = 𝑥1, 𝑥2, … , 𝑥𝑛 𝑇 ∈ ℝ𝑛×𝑑 ↦ 𝑧 = 𝑧1, 𝑧2, … , 𝑧𝑛 𝑇 ∈ ℝ𝑛×𝑑 同じ型
12.
[公開情報] BERTにおける 自己教師学習 ©2022 ARISE analytics
Reserved.
13.
[公開情報] BERT概略 ©2022 ARISE analytics
Reserved. ① Masked Language Model (MLM) ② Next Sentence Prediction (NSP) ① ② この2つのタスク を 訓練することで 表現ベクトルを 学習していく 3. [Jacob, et al.]
14.
[公開情報] MLMとは ©2022 ARISE analytics
Reserved. 13 穴あきクイズを解く 問題 例) ARISE は [MASK] が 得意 で AI技術 に 精通 しています。 Transformer x(ARISE) x([MASK]) x(得意) x(AI技術) x(精通) 予測 データ分 析 元の文章から単語をランダ ムに [MASK]に置き換える x([MASK])でボキャブラリ 全体からロジスティック 回帰 学習!
15.
[公開情報] NSPとは ©2022 ARISE analytics
Reserved. 14 文章のつながりが正しいかを判定する問 題 例) [CLS] ARISE は データ分析 が 得意 です [SEP] あなた は 口笛 を 吹いた Transformer x([CLS]) x(ARISE) x(データ分析) x(得意) x([SEP]) x(あなた) … 予測 SEP前後で正しく 文章がつながってい ない 文章先頭に[CLS]を付与 2文の間に[SEP]を挿入 x([CLS])でYes/Noの二値分類 学 習
16.
[公開情報] ViTにおける 画像へのTransformer適用 ©2022 ARISE analytics
Reserved.
17.
[公開情報] ViT概略 ©2022 ARISE analytics
Reserved. ① ② ① 画像のパッチ分割・シーケン ス化 ② クラス分類 4. [Alexey, et al.]
18.
[公開情報] 画像の分割とシーケンス化 ©2022 ARISE analytics
Reserved. 17 ① 画像を(p x p)の正方形パッチに分割 ② 正方形パッチを1次元に変形 ③ 線形変換 ④ 先頭トークン[CLASS]のベクトルを つける ⑤ Positional Embeddingを加える 𝑧0 = 𝑥𝑐𝑙𝑎𝑠𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛 𝑇 + 𝑃𝐸 ∈ ℝ 𝑛+1 ×𝑑 𝑥𝑖 ∈ ℝ𝑝2𝑐 𝐸 ∈ ℝ𝑑×𝑝2𝑐 𝑥𝑐𝑙𝑠 ∈ ℝ𝑑 𝑥𝑖 1次元化された正方形パッ チ 線形変換の行列 先頭のクラストー クン Positional Embedding
19.
[公開情報] クラス分類 ©2022 ARISE analytics
Reserved. 18 NSPと同様に先頭の[CLASS]のベクトルから 予測 𝑧0 = 𝑥𝑐𝑙𝑠, 𝐸𝑥1, … , 𝐸𝑥𝑛 𝑇 + 𝑃𝐸 𝑧ℓ = Transformer 𝑧ℓ−1 𝑦 = Softmax 𝑧𝐿 (𝑐𝑙𝑎𝑠𝑠) Transformer ブロックを多層に繋 げる 最終層の[CLASS]ベクト ルで 各Classの確率を計算
20.
[公開情報] BEiT解説 ©2022 ARISE analytics
Reserved.
21.
[公開情報] BEiT概略 ©2022 ARISE analytics
Reserved. ① ② ① 画像を学習済みのdiscrete VAEで離散化 ② 画像のパッチをランダムに[MASK]に置き換えてMIM (画像版 MLM) ViTとほぼ同じ 1. [Hangbo, et al.]
22.
[公開情報] 画像のTokenizer ©2022 ARISE analytics
Reserved. 21 画像を学習済みのdiscrete VAE(dVAE)で離散化 (画像x → visualトークンz) ResNetベースで 256 x 256 x 3 の画像から 32 x 32 x (token size)の 確率ベクトルに 確率最大の visualトーク ン 離散トークンを扱える Gumbel Softmax による確率的なdecode 学習済みのdVAEモデルはこ ちら → https://github.com/openai/DALL-E 5. [Aditya, et al.]
23.
[公開情報] MIM (Masked Image
Model) ©2022 ARISE analytics Reserved. 22 ① 画像パッチの中から[MASK]をランダムで置き換 える ② [MASK]のViTベクトルから元のvisualトークンを 予測 ①なるべく塊で40%マ スク ②マスクされたバッチの 最終層でロジスティッ ク回帰
24.
[公開情報] BEiT特徴量による分類 ©2022 ARISE analytics
Reserved. 23 BEiT画像特徴量 𝐵𝐸𝑖𝑇 = 1 𝑛 𝑖=1 𝑛 ℎ𝑖 𝐿 ∈ ℝ𝑑 BEiT画像特徴量か ら ロジスティック回 帰 によるクラス分類 各画像パッチのBEiT最終層の出力平 均 優秀!
25.
[公開情報] BEiTによるセマンティックセグメンテーション ©2022 ARISE analytics
Reserved. 24 他手法と比べてセマンティックセグメンテーションの 精度が高い 各画像バッチに対してカテゴリーの予測をBEiT最終層の出力 から行う
26.
[公開情報] Self-Attention Mapの確認 ©2022 ARISE
analytics Reserved. 25 自身に関係するところを 注視している! 矢印の根本部分をクエリとした ときの Self-Attention Map
27.
[公開情報] まとめ ©2022 ARISE analytics
Reserved. 26 BERTの自己教師あり学習を 画像の離散化により画像に転用して 画像の表現ベクトルを得た。
28.
[公開情報] Referrence ©2022 ARISE analytics
Reserved. 27 1. Hangbo, et al. “BEiT: BERT Pre-Training of Image Transformers.” ICLR2022 2. Ashish, et al. “Attention is all you need.” NeurIPS2017 3. Jacob, et al. “BERT: pre-training of deep bidirectional transformers for language understanding.” ACL2019 4. Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” ICLR2021 5. Aditya, et al. “Zero-Shot Text-to-Image Generation.” ICML2021
29.
[公開情報] Best Partner for
innovation, Best Creator for the future.