Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料

Yusuke Uchida
Yusuke UchidaResearch engineer em Mobility Technologies
Yusuke Uchida (@yu4u)
株式会社 Mobility Technologies
Swin Transformer:
Hierarchical Vision Transformer
Using Shifted Windows
本資料はDeNA+MoTでの
輪講資料に加筆したものです
2
▪ 本家
▪ https://github.com/microsoft/Swin-
Transformer/blob/main/models/swin_transformer.py
▪ timm版(ほぼ本家のporting)
▪ https://github.com/rwightman/pytorch-image-
models/blob/master/timm/models/swin_transformer.py
▪ バックボーンとして使うならこちら
▪ https://github.com/SwinTransformer/Swin-Transformer-Object-
Detection/blob/master/mmdet/models/backbones/swin_transformer.py
本家実装が参考になるので合わせて見ましょう
3
▪ Equal contribution多すぎィ
どうでもいいところから
4
利用者の声
個人の感想です
5
▪ TransformerはNLPでデファクトバックボーンとなった
▪ TransformerをVisionにおけるCNNのように
汎用的なバックボーンとすることはできないか? → Swin Transformer!
▪ NLPとVisionのドメインの違いに対応する拡張を提案
▪ スケールの問題
▪ NLPではword tokenが処理の最小単位、
画像はmulti-scaleの処理が重要なタスクも存在(e.g. detection)
→パッチマージによる階層的な特徴マップの生成
▪ 解像度の問題
▪ パッチ単位よりも細かい解像度の処理が求められるタスクも存在
→Shift Windowによる計算量削減、高解像度特徴マップ実現
概要
6
▪ C2-C5特徴マップが出力でき、CNNと互換性がある
▪ チャネルが2倍で増えていく部分も同じ
アーキテクチャ
C2 C3 C4 C5
理屈上は
7
timm版はクラス分類以外のバックボーンとしては使いづらい
timm Swin-Transformer-Object-Detection
この段階で
avgpoolされてる
ちゃんと各レベルの特徴が
BCHWのshapeのリストで得られる
8
timm版はクラス分類以外のバックボーンとしては使いづらい
https://github.com/rwightman/pytorch-image-models/issues/614
9
▪ 主な構成モジュール
アーキテクチャ
Patch Partition
&
Linear Embedding
Patch Merging Swin Transformer Block
10
▪ Patch Partition
▪ ViTと同じく画像を固定サイズのパッチに分割
▪ デフォルトだと 4x4 のパッチ
→RGB画像だと 4x4x3 次元のtokenができる
▪ Linear Embedding
▪ パッチ (token) をC次元に変換
▪ 実際は上記2つをkernel_size=stride=パッチサイズの
conv2dで行っている
▪ デフォルトではその後 Layer Normalization
Patch Partition & Linear Embedding
11
▪ 近傍 2x2 のC次元パッチを統合
▪ concat → 4C次元
▪ Layer Normalization
▪ Linear → 2C次元
Patch Merging
(B, HW, C) にしてるのでpixel_unshuffle
使いづらい?
12
▪ Transformerのencoder layerとほぼ同じ
▪ 差分は Shifted Window-based Multi-head Self-attention
Swin Transformer Block
Two Successive
Swin Transformer Blocks
ココがポイント
13
▪ Transformerのencoder layerとほぼ同じ
▪ 差分は Shifted Window-based Multi-head Self-attention
Swin Transformer Block
Two Successive
Swin Transformer Blocks
ココがポイント
Pre-norm
Post-norm
14
▪ Learning Deep Transformer Models for Machine Translation, ACL’19.
▪ On Layer Normalization in the Transformer Architecture, ICML’20.
Post-norm vs. Pre-norm
ResNetのpost-act, pre-actを
思い出しますね?
15
▪ Transformerのencoder layerとほぼ同じ
▪ 差分は Shifted Window-based Multi-head Self-attention
Swin Transformer Block
Two Successive
Swin Transformer Blocks
ココがポイント
16
▪ 特徴マップをサイズがMxMのwindowに区切り
window内でのみself-attentionを求める
▪ hxw個のパッチが存在する特徴マップにおいて、
(hw)x(hw)の計算量が、M2xM2 x (h/M)x(w/M) = M2hwに削減
▪ M=7 (入力サイズ224の場合)
▪ C2(stride=4, 56x56のfeature map)だと、8x8個window
Window-based Multi-head Self-attention (W-MSA)
per window window数
パッチ数の2乗
17
▪ (M/2, M/2) だけwindowをshiftしたW-MSA
▪ 通常のwindow-basedと交互に適用することで
隣接したwindow間でのconnectionが生まれる
Shifted Window-based Multi-head Self-attention (SW-MSA)
h=w=8, M=4の例
18
▪ 下記だと9個のwindowができるが、特徴マップをshiftし
シフトなしと同じ2x2のwindowとしてattention計算
▪ 実際は複数windowが混じっているwindowは
maskを利用してwindow間のattentionを0にする
効率的なSW-MSAの実装
19
実装
shift
逆shift
(S)W-MSA本体
20
▪ Self-attention自体は単なる集合のencoder
▪ Positional encodingにより系列データであることを教えている
▪ SwinではRelative Position Biasを利用
▪ Relativeにすることで、translation invarianceを表現
Relative Position Bias
Window内の相対的な位置関係によって
attention強度を調整(learnable)
21
▪ 相対位置関係は縦横[−M + 1, M −1]のrangeで(2M-1)2パターン
▪ このbiasとindexの関係を保持しておき、使うときに引く
実装
22
▪ On Position Embeddings in BERT, ICLR’21
▪ https://openreview.net/forum?id=onxoVA9FxMw
▪ https://twitter.com/akivajp/status/1442241252204814336
▪ Rethinking and Improving Relative Position Encoding for Vision
Transformer, ICCV’21. thanks to @sasaki_ts
▪ CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows, arXiv’21. thanks to @Ocha_Cocoa
Positional Encoding(余談)
23
img_size (int | tuple(int)): Input image size. Default 224
patch_size (int | tuple(int)): Patch size. Default: 4
in_chans (int): Number of input image channels. Default: 3
num_classes (int): Number of classes for classification head. Default: 1000
embed_dim (int): Patch embedding dimension. Default: 96
depths (tuple(int)): Depth of each Swin Transformer layer. [2, 2, 6, 2]
num_heads (tuple(int)): Number of attention heads in different layers. [3, 6, 12, 24]
window_size (int): Window size. Default: 7
mlp_ratio (float): Ratio of mlp hidden dim to embedding dim. Default: 4
qkv_bias (bool): If True, add a learnable bias to query, key, value. Default: True
qk_scale (float): Override default qk scale of head_dim ** -0.5 if set. Default: None
drop_rate (float): Dropout rate. Default: 0
attn_drop_rate (float): Attention dropout rate. Default: 0
drop_path_rate (float): Stochastic depth rate. Default: 0.1
norm_layer (nn.Module): Normalization layer. Default: nn.LayerNorm.
ape (bool): If True, add absolute position embedding to the patch embedding. Default: False
patch_norm (bool): If True, add normalization after patch embedding. Default: True
use_checkpoint (bool): Whether to use checkpointing to save memory. Default: False
パラメータとか
Stochastic depthをガッツリ使っている
次元の増加に合わせhead数増加
24
▪ クラス分類学習時stochastic depthのdrop確率
T: 0.2, S: 0.3, B: 0.5
▪ Detection, segmentationだと全て0.2
Model Configuration
25
▪ MSAとMLP (FF) 両方に適用
Stochastic Depth
26
▪ SOTA! SUGOI!
実験結果
27
▪ Shifted window, rel. pos.重要
Ablation Study
28
▪ Shiftedが精度同等で高速
Sliding window vs. shifted window
29
▪ チャネルを2等分して、縦横のstripeでのself-attention
関連手法:CSWin Transformer
X. Dong, et al., "CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped
Windows," in arXiv:2107.00652.
30
関連手法:Pyramid Vision Transformer
W. Wang, et al., "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without
Convolutions," in Proc. of ICCV, 2021.
https://github.com/whai362/PVT
31
関連手法:Pyramid Vision Transformer
W. Wang, et al., "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without
Convolutions," in Proc. of ICCV, 2021.
32
関連手法:Pyramid Vision Transformer
W. Wang, et al., "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without
Convolutions," in Proc. of ICCV, 2021.
複数パッチを統合してflatten, liner, norm
linerとnormの順番が逆なだけでPatch Mergingと同じ
33
関連手法:Pyramid Vision Transformer
W. Wang, et al., "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without
Convolutions," in Proc. of ICCV, 2021.
Position Embeddingは
普通の学習するやつ
34
関連手法:Pyramid Vision Transformer
W. Wang, et al., "Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without
Convolutions," in Proc. of ICCV, 2021.
Spatial-Reduction Attention
(SRA) がポイント
35
▪ K, V(辞書側)のみ空間サイズを縮小
▪ 実装としてはConv2D -> LayerNorm
▪ Qはそのままなので
出力サイズは変わらない
▪ 削減率は8, 4, 2, 1 とstrideに合わせる
Spatial-Reduction Attention (SRA)
36
▪ V2もあるよ!
▪ 2020年ではなく2021年なので誰かPR出してあげてください
関連手法:Pyramid Vision Transformer
https://github.com/whai362/PVT
37
▪ でっかいモデルをGPUになんとか押し込みました!
▪ post-normになってる…
関連手法:Swin Transformer V2
Ze Liu, et al., "Swin Transformer V2: Scaling Up Capacity and Resolution," in arXiv:2111.09883.
38
▪ Token mixerよりもTransformerの一般的な構造自体が重要
▪ Token mixer = self-attention, MLP
▪ Token mixerが単なるpoolingのPoolFormerを提案
関連手法: MetaFormer
W. Yu, et al., "MetaFormer is Actually What You Need for Vision," in arXiv:2111.11418.
Conv3x3
stride=2
Ave pool3x3
1 de 38

Recomendados

近年のHierarchical Vision Transformer por
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
13.8K visualizações46 slides
全力解説!Transformer por
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
9.5K visualizações43 slides
【メタサーベイ】数式ドリブン教師あり学習 por
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
5.9K visualizações33 slides
【DL輪読会】ViT + Self Supervised Learningまとめ por
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
4K visualizações52 slides
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,... por
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
2.4K visualizações15 slides
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話 por
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
9.4K visualizações56 slides

Mais conteúdo relacionado

Mais procurados

[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows por
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
3.7K visualizações27 slides
モデル高速化百選 por
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
24.7K visualizações64 slides
画像キャプションの自動生成 por
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
58K visualizações101 slides
[DL輪読会]ドメイン転移と不変表現に関するサーベイ por
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
6.9K visualizações54 slides
Transformerを多層にする際の勾配消失問題と解決法について por
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
4.8K visualizações16 slides
畳み込みニューラルネットワークの高精度化と高速化 por
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
64.5K visualizações133 slides

Mais procurados(20)

[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows por Deep Learning JP
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Deep Learning JP3.7K visualizações
モデル高速化百選 por Yusuke Uchida
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida24.7K visualizações
画像キャプションの自動生成 por Yoshitaka Ushiku
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku58K visualizações
[DL輪読会]ドメイン転移と不変表現に関するサーベイ por Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP6.9K visualizações
Transformerを多層にする際の勾配消失問題と解決法について por Sho Takase
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase4.8K visualizações
畳み込みニューラルネットワークの高精度化と高速化 por Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida64.5K visualizações
自己教師学習(Self-Supervised Learning) por cvpaper. challenge
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge12.8K visualizações
ドメイン適応の原理と応用 por Yoshitaka Ushiku
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku5.5K visualizações
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling por Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP2.9K visualizações
【メタサーベイ】Video Transformer por cvpaper. challenge
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge2.2K visualizações
Anomaly detection 系の論文を一言でまとめた por ぱんいち すみもと
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと4.4K visualizações
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing por Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP3K visualizações
Bayesian Neural Networks : Survey por tmtm otm
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm5K visualizações
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 por SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII3.8K visualizações
GAN(と強化学習との関係) por Masahiro Suzuki
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki83K visualizações
深層学習の数理 por Taiji Suzuki
深層学習の数理深層学習の数理
深層学習の数理
Taiji Suzuki79.7K visualizações
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs por Deep Learning JP
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP1.5K visualizações
backbone としての timm 入門 por Takuji Tahara
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara7.4K visualizações
Transformer 動向調査 in 画像認識(修正版) por Kazuki Maeno
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno1.7K visualizações
【DL輪読会】Patches Are All You Need? (ConvMixer) por Deep Learning JP
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
Deep Learning JP2.3K visualizações

Similar a Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S... por
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
31.2K visualizações30 slides
【メタサーベイ】基盤モデル / Foundation Models por
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
16.5K visualizações63 slides
ADVENTUREの他のモジュール・関連プロジェクトの紹介 por
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
363 visualizações26 slides
OpenCVを用いた画像処理入門 por
OpenCVを用いた画像処理入門OpenCVを用いた画像処理入門
OpenCVを用いた画像処理入門uranishi
34.3K visualizações141 slides
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting por
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video InpaintingToru Tamaki
103 visualizações12 slides
[DL輪読会]GQNと関連研究,世界モデルとの関係について por
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
8.9K visualizações58 slides

Similar a Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料(20)

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S... por Deep Learning JP
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP31.2K visualizações
【メタサーベイ】基盤モデル / Foundation Models por cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge16.5K visualizações
ADVENTUREの他のモジュール・関連プロジェクトの紹介 por ADVENTURE Project
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project363 visualizações
OpenCVを用いた画像処理入門 por uranishi
OpenCVを用いた画像処理入門OpenCVを用いた画像処理入門
OpenCVを用いた画像処理入門
uranishi34.3K visualizações
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting por Toru Tamaki
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
Toru Tamaki103 visualizações
[DL輪読会]GQNと関連研究,世界モデルとの関係について por Deep Learning JP
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP8.9K visualizações
Xilinx2013d por Kiyoshi Ogawa
Xilinx2013dXilinx2013d
Xilinx2013d
Kiyoshi Ogawa1.1K visualizações
Spring3.1概要x di por Yuichi Hasegawa
Spring3.1概要x diSpring3.1概要x di
Spring3.1概要x di
Yuichi Hasegawa7.7K visualizações
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ... por Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP687 visualizações
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki) por kanejaki
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki6K visualizações
130710 02 por openrtm
130710 02130710 02
130710 02
openrtm1.4K visualizações
Windows 11とNPUで実現するWindowsのAI por Tomokazu Kizawa
Windows 11とNPUで実現するWindowsのAIWindows 11とNPUで実現するWindowsのAI
Windows 11とNPUで実現するWindowsのAI
Tomokazu Kizawa127 visualizações
Why Reactive Matters #ScalaMatsuri por Yuta Okamoto
Why Reactive Matters #ScalaMatsuriWhy Reactive Matters #ScalaMatsuri
Why Reactive Matters #ScalaMatsuri
Yuta Okamoto15.5K visualizações
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定 por Morpho, Inc.
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.414 visualizações
点群深層学習 Meta-study por Naoya Chiba
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba10.4K visualizações
猫でも分かるVariational AutoEncoder por Sho Tatsuno
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno131.6K visualizações
Bee Style:vol.006 por spicepark
Bee Style:vol.006Bee Style:vol.006
Bee Style:vol.006
spicepark601 visualizações
OpenCVをAndroidで動かしてみた por 徹 上野山
OpenCVをAndroidで動かしてみたOpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみた
徹 上野山139.6K visualizações
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演) por cvpaper. challenge
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper. challenge7.6K visualizações
C# 8.0 Preview in Visual Studio 2019 (16.0) por 信之 岩永
C# 8.0 Preview in Visual Studio 2019 (16.0)C# 8.0 Preview in Visual Studio 2019 (16.0)
C# 8.0 Preview in Visual Studio 2019 (16.0)
信之 岩永4.5K visualizações

Mais de Yusuke Uchida

SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution por
SIGNATE オフロードコンペ 精度認識部門 3rd Place SolutionSIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place SolutionYusuke Uchida
1.6K visualizações15 slides
SIGNATE 鰹節コンペ2nd Place Solution por
SIGNATE 鰹節コンペ2nd Place SolutionSIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place SolutionYusuke Uchida
1.7K visualizações20 slides
DRIVE CHARTを支えるAI技術 por
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
2.3K visualizações44 slides
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20) por
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)Yusuke Uchida
8.1K visualizações30 slides
画像認識と深層学習 por
画像認識と深層学習画像認識と深層学習
画像認識と深層学習Yusuke Uchida
17.5K visualizações174 slides
Semi supervised, weakly-supervised, unsupervised, and active learning por
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
6.3K visualizações43 slides

Mais de Yusuke Uchida(20)

SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution por Yusuke Uchida
SIGNATE オフロードコンペ 精度認識部門 3rd Place SolutionSIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
SIGNATE オフロードコンペ 精度認識部門 3rd Place Solution
Yusuke Uchida1.6K visualizações
SIGNATE 鰹節コンペ2nd Place Solution por Yusuke Uchida
SIGNATE 鰹節コンペ2nd Place SolutionSIGNATE 鰹節コンペ2nd Place Solution
SIGNATE 鰹節コンペ2nd Place Solution
Yusuke Uchida1.7K visualizações
DRIVE CHARTを支えるAI技術 por Yusuke Uchida
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
Yusuke Uchida2.3K visualizações
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20) por Yusuke Uchida
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
Yusuke Uchida8.1K visualizações
画像認識と深層学習 por Yusuke Uchida
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
Yusuke Uchida17.5K visualizações
Semi supervised, weakly-supervised, unsupervised, and active learning por Yusuke Uchida
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida6.3K visualizações
Deep Fakes Detection por Yusuke Uchida
Deep Fakes DetectionDeep Fakes Detection
Deep Fakes Detection
Yusuke Uchida4.3K visualizações
モデルアーキテクチャ観点からの高速化2019 por Yusuke Uchida
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida17.7K visualizações
Humpback whale identification challenge反省会 por Yusuke Uchida
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
Yusuke Uchida13.3K visualizações
DeNAにおける先端AI技術活用のチャレンジ por Yusuke Uchida
DeNAにおける先端AI技術活用のチャレンジDeNAにおける先端AI技術活用のチャレンジ
DeNAにおける先端AI技術活用のチャレンジ
Yusuke Uchida5K visualizações
コンピュータビジョン技術の実応用とビジネス por Yusuke Uchida
コンピュータビジョン技術の実応用とビジネスコンピュータビジョン技術の実応用とビジネス
コンピュータビジョン技術の実応用とビジネス
Yusuke Uchida6.2K visualizações
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear... por Yusuke Uchida
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Yusuke Uchida13.1K visualizações
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用 por Yusuke Uchida
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用
Yusuke Uchida51.7K visualizações
畳み込みニューラルネットワークの研究動向 por Yusuke Uchida
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida139.8K visualizações
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介) por Yusuke Uchida
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
PRMU研究会の今後のあり方について(NLP分野での取り組み紹介)
Yusuke Uchida2.8K visualizações
モデルアーキテクチャ観点からのDeep Neural Network高速化 por Yusuke Uchida
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida38.7K visualizações
最近のSingle Shot系の物体検出のアーキテクチャまとめ por Yusuke Uchida
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida40.1K visualizações
Embedding Watermarks into Deep Neural Networks por Yusuke Uchida
Embedding Watermarks into Deep Neural NetworksEmbedding Watermarks into Deep Neural Networks
Embedding Watermarks into Deep Neural Networks
Yusuke Uchida3.9K visualizações
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説 por Yusuke Uchida
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
"Scale Aware Face Detection"と"Finding Tiny Faces" (CVPR'17) の解説
Yusuke Uchida2.3K visualizações
Overcoming Catastrophic Forgetting in Neural Networks読んだ por Yusuke Uchida
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida2.6K visualizações

Último

SSH応用編_20231129.pdf por
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdficebreaker4
335 visualizações13 slides
The Things Stack説明資料 by The Things Industries por
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things IndustriesCRI Japan, Inc.
58 visualizações29 slides
さくらのひやおろし2023 por
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023法林浩之
96 visualizações58 slides
JJUG CCC.pptx por
JJUG CCC.pptxJJUG CCC.pptx
JJUG CCC.pptxKanta Sasaki
6 visualizações14 slides
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... por
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...NTT DATA Technology & Innovation
120 visualizações42 slides
IPsec VPNとSSL-VPNの違い por
IPsec VPNとSSL-VPNの違いIPsec VPNとSSL-VPNの違い
IPsec VPNとSSL-VPNの違い富士通クラウドテクノロジーズ株式会社
430 visualizações8 slides

Último(11)

SSH応用編_20231129.pdf por icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4335 visualizações
The Things Stack説明資料 by The Things Industries por CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.58 visualizações
さくらのひやおろし2023 por 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之96 visualizações
JJUG CCC.pptx por Kanta Sasaki
JJUG CCC.pptxJJUG CCC.pptx
JJUG CCC.pptx
Kanta Sasaki6 visualizações
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... por NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
NTT DATA Technology & Innovation120 visualizações
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) por NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
定例会スライド_キャチs 公開用.pdf por Keio Robotics Association
定例会スライド_キャチs 公開用.pdf定例会スライド_キャチs 公開用.pdf
定例会スライド_キャチs 公開用.pdf
Keio Robotics Association111 visualizações
SNMPセキュリティ超入門 por mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda355 visualizações
Windows 11 information that can be used at the development site por Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka88 visualizações
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 por Hitachi, Ltd. OSS Solution Center.
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料