Submit Search
Upload
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
•
Download as PPTX, PDF
•
1 like
•
3,368 views
Deep Learning JP
Follow
2022/03/25 Deep Learning JP: http://deeplearning.jp/seminar-2/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 17
Download now
Recommended
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
Recommended
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
Deep Learning JP
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
Takahiro Kubo
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
深層学習の数理
深層学習の数理
Taiji Suzuki
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Preferred Networks
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
強化学習における好奇心
強化学習における好奇心
Shota Imai
Playing Atari with Six Neurons
Playing Atari with Six Neurons
harmonylab
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
tomoaki0705
More Related Content
What's hot
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
Takahiro Kubo
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
深層学習の数理
深層学習の数理
Taiji Suzuki
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Preferred Networks
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
強化学習における好奇心
強化学習における好奇心
Shota Imai
What's hot
(20)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
深層学習の数理
深層学習の数理
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
強化学習における好奇心
強化学習における好奇心
Similar to [DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Playing Atari with Six Neurons
Playing Atari with Six Neurons
harmonylab
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
tomoaki0705
ICLR2020読み会 (neural-tangents)
ICLR2020読み会 (neural-tangents)
RyuichiKanoh
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
harmonylab
20150930
20150930
nlab_utokyo
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Kenta Oono
20180110 AI&ロボット勉強会 Deeplearning4J と時系列データの異常検知について
20180110 AI&ロボット勉強会 Deeplearning4J と時系列データの異常検知について
Kazuki Motohashi
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
Hokuto Kagaya
SBRA2018講演資料
SBRA2018講演資料
Hiroki Nakahara
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
kunihikokaneko1
Hello deeplearning!
Hello deeplearning!
T2C_
20150803.山口大学講演
20150803.山口大学講演
Hayaru SHOUNO
mi-4. 機械学習
mi-4. 機械学習
kunihikokaneko1
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
Takashi Abe
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
第4回全脳アーキテクチャハッカソン説明会
第4回全脳アーキテクチャハッカソン説明会
The Whole Brain Architecture Initiative
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
Masafumi Oe
HTML5によるニューラルネットワークの可視化
HTML5によるニューラルネットワークの可視化
z_kro
Similar to [DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
(18)
Playing Atari with Six Neurons
Playing Atari with Six Neurons
Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
ICLR2020読み会 (neural-tangents)
ICLR2020読み会 (neural-tangents)
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
20150930
20150930
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
20180110 AI&ロボット勉強会 Deeplearning4J と時系列データの異常検知について
20180110 AI&ロボット勉強会 Deeplearning4J と時系列データの異常検知について
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
SBRA2018講演資料
SBRA2018講演資料
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
Hello deeplearning!
Hello deeplearning!
20150803.山口大学講演
20150803.山口大学講演
mi-4. 機械学習
mi-4. 機械学習
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
第4回全脳アーキテクチャハッカソン説明会
第4回全脳アーキテクチャハッカソン説明会
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
Shell shock事件が明らかにするあなたの組織における情報セキュリティ力
HTML5によるニューラルネットワークの可視化
HTML5によるニューラルネットワークの可視化
More from Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
More from Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Recently uploaded
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Recently uploaded
(12)
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets” (ICLR 2021 workshop) Okimura Itsuki, Matsuo Lab, B4
2.
アジェンダ 1. 書誌情報 2. 概要 3.
背景 4. 実験 2
3.
1 書誌情報 タイトル: Grokking:
Generalization Beyond Overfitting on Small Algorithmic Datasets 出典: ICLR 2021 (1st Mathematical Reasoning in General Artificial Intelligence Workshop) https://nips.cc/Conferences/2021/ScheduleMultitrack?event=25970 著者: Alethea Power, Yuri Burda, Harri Edwards, Igor Babuschkin & Vedant Misra (OpenAI) 選んだ理由:現象が面白い 3
4.
2 概要 • 一般的にニューラルネットワークはある一定の学習ステップ数を経ると 以降の検証データで損失が減少しない過学習に陥るとされる. •
しかし、数式の答えを求めるタスクにおいて 過学習するステップ数を遥かに超えて学習を続けると, ニューラルネットワークがデータ中のパターンを 「理解する(Grokking)」プロセスを通じて学習し, 急激な汎化性能の向上が見られる場合があることを示した. • この現象において,より小さなデータセットを用いた場合, 汎化のためのステップ数の必要量が増加することも示した. 4
5.
3 背景 5 Bias-Variance Trade-off 出典:
https://towardsdatascience.com/bias-and- variance-but-what-are-they-really-ac539817e171 統計的機械学習における学習理論 汎化誤差はバイアスとバリアンスと ノイズに分解され, モデルの複雑度低すぎる場合: 予測値と真の値との差(バイアス)が高くなり、 データの特徴を捉えられず、 学習不足に陥る モデルの複雑度高すぎる場合: 予測値の分散(バリアンス)が高くなり、 データのノイズまで学習してしまい、 過学習に陥る
6.
3 背景 6 近年サイズの大きいモデルも成果を出す モデルの複雑度高いのに 過学習しないの? Bias-Variance Trade-offは? 出典:
https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train- megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/
7.
3 背景 二重降下(Double Descent) モデルの複雑度(モデル構造や学習量など)を 増やしていくと, 一度テストエラーの減少が止まったのち, 再度テストエラーの減少が起こる 二重降下が報告される CNN,ResNet,およびTransformerなどの 最新モデルでも報告 条件によってはより多くのデータを使っても 性能が悪化する場合もあった 7 出典:
https://arxiv.org/pdf/1912.02292.pdf
8.
3 背景 8 GPT-3はパラメータ数が13Bを超えると足し算、引き算が解け始める Few-shotの設定において パラメータ数が6.7B以下のモデル ほとんど四則演算が解けない パラメータ数が13Bのモデル 二桁の足し算、引き算を50%前後解ける パラメータ数が175Bのモデル 二桁の足し算、引き算は98%以上, 三桁の足し算、引き算は80%以上解ける 掛け算や複合演算なども20%前後解ける →解けるかどうかはパラメータ数依存? 出典: https://arxiv.org/pdf/2005.14165.pdf
9.
4 実験 9 二項演算を小規模なニューラルネットにより汎化できるか検証 𝑎 ∘
𝑏 = 𝑐の形の等式のデータセット (0 ≤ 𝑎, 𝑏 < 97)に対して サイズの小さい(400Kパラメーター) Transformerで学習を行う すべての可能な等式の適切な部分集合に ついてニューラルネットワークを訓練することは、右図の 二項演算表の空白を埋めることに等しい トークン化されるため内部的な情報 (ex. 10進数での表記)にはアクセスできず 離散的な記号の他の要素との相関から 二項演算を解くことができるか?
10.
4 実験 Grokking 10 *grok【他動】〈米俗〉完全に[しっかり・ 心底から]理解[把握]する 102step程度から訓練データでの損失と 検証データでの損失に乖離が見え始め, 103step程度で訓練データでの損失が0近くになる その後105 stepから検証データでの損失が 下がり始める. そして106 stepで検証データでも損失が0近くになる →過学習し始してからその1000倍以上の 最適化stepを経ることで急激に検証データでの 精度が急激に向上する。(Grokking) 出典: https://eow.alc.co.jp/search?q=grok
11.
4 実験 データ数の影響 11 異なったデータ数の条件においてのGrokkingを比較 一般的な教師あり学習の設定において データが少ないほど学習データ量を減らすと モデルの収束する汎化性能が低下する 一方,Grokkingが観測される場合, 学習データ量の範囲内では 収束性能が100%で一定であるのに対し, データ量の減少に伴って 収束性能を達成するために 必要な最適化時間が急速に増加する
12.
4 実験 二項演算の種類による影響 12 二項演算の種類ごとに生じる Grokkingの様子を比較 オペランドの順序に関して 対称なもの(ex. 𝑥
+ 𝑦, 𝑥2 + 𝑦2 )は 非対称な演算(ex. 𝑥 𝑦, 𝑥3 + 𝑥𝑦)よりも 汎化のためのデータが少なくて済む 傾向がある →位置埋め込みを無視するだけで良く 学習しやすかった可能性 一部の直観的に困難な数式 (ex. 𝑥3 + 𝑥𝑦2 + 𝑦)では 予算内では汎化に至らず
13.
4 実験 正則化の影響 13 異なった正則化アルゴリズムでの 105step学習した後の性能を比較 重み減衰がデータ効率に対し, 最も効果的で収束に必要となる サンプル数を大幅に削減 →重み減衰が重要な役割を担う? ミニバッチの使用による勾配ノイズ,ガウ スノイズといったものも 学習に一定の効果 最適でないハイパーパラメータだと 収束率は著しく低下する
14.
4 実験 出力層の可視化 14 𝑥 +
𝑦で学習したTransformerの 埋め込み層をt-SNEを用いて可視化する 各要素に8を加えた数列が示される →埋め込み層が数学的な特徴を捉えている
15.
まとめ 15 • 一般的にニューラルはある一定の学習ステップ数を経ると 以降の検証データで損失が減少しない過学習に陥るとされる. • しかし、数式の答えを求めるタスクにおいて 過学習するステップ数を遥かに超えて学習を続けると, ニューラルネットワークがデータ中のパターンを 「理解する(Grokking)」プロセスを通じて学習し, 急激な汎化性能の向上が見られる場合があることを示した. •
この現象において,より小さなデータセットを用いた場合, 汎化のためのステップ数の必要量が増加することも示した.
16.
感想 16 (確かに“完全に理解した曲線”っぽい) パラメーター数の小さなモデルでも汎化に到達するのが意外だった。 パラメータ数が増えた場合にGrokkingに到達するまでの比較は見たかった。 今回の実験では二項演算を97×97の数字の表の空きスロットを埋める計算として定義。 実際の計算よりはかなり小規模なスケール 各桁数字ごとにトークン化すればより大きな桁でのGrokkingに到達できる? 小さいモデルでも実現可能な一方で,Grokkingは学習率を比較的狭い範囲(1桁以内)で 調整する必要があるらしく,やはりモデルの複雑度を上げるのにもパラメータを増やすのが有力?
17.
DEEP LEARNING JP [DL
Papers] “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets” (ICLR 2021 workshop) Okimura Itsuki, Matsuo Lab, B4 http://deeplearning.jp/
Download now