Início
Conheça mais
Enviar pesquisa
Carregar
Entrar
Cadastre-se
Anúncio
【DL輪読会】Scaling Laws for Neural Language Models
Denunciar
Deep Learning JP
Seguir
Deep Learning JP
19 de Feb de 2021
•
0 gostou
5 gostaram
×
Seja o primeiro a gostar disto
mostrar mais
•
2,977 visualizações
visualizações
×
Vistos totais
0
No Slideshare
0
De incorporações
0
Número de incorporações
0
Check these out next
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
猫でも分かるVariational AutoEncoder
Sho Tatsuno
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
PRML学習者から入る深層生成モデル入門
tmtm otm
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
1
de
27
Top clipped slide
【DL輪読会】Scaling Laws for Neural Language Models
19 de Feb de 2021
•
0 gostou
5 gostaram
×
Seja o primeiro a gostar disto
mostrar mais
•
2,977 visualizações
visualizações
×
Vistos totais
0
No Slideshare
0
De incorporações
0
Número de incorporações
0
Baixar agora
Baixar para ler offline
Denunciar
Tecnologia
2021/02/19 Deep Learning JP: http://deeplearning.jp/seminar-2/
Deep Learning JP
Seguir
Deep Learning JP
Anúncio
Anúncio
Anúncio
Recomendados
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
13.9K visualizações
•
38 slides
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
3.8K visualizações
•
34 slides
研究効率化Tips Ver.2
cvpaper. challenge
17.4K visualizações
•
298 slides
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
9.7K visualizações
•
137 slides
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
4.4K visualizações
•
33 slides
深層生成モデルと世界モデル
Masahiro Suzuki
16K visualizações
•
57 slides
Mais conteúdo relacionado
Apresentações para você
(20)
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
•
13.5K visualizações
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
•
14.2K visualizações
猫でも分かるVariational AutoEncoder
Sho Tatsuno
•
129.7K visualizações
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
•
3.3K visualizações
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
•
1.2K visualizações
PRML学習者から入る深層生成モデル入門
tmtm otm
•
5.4K visualizações
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
•
56.1K visualizações
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
•
1.9K visualizações
Active Learning 入門
Shuyo Nakatani
•
51K visualizações
全力解説!Transformer
Arithmer Inc.
•
7.4K visualizações
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
•
3.9K visualizações
深層学習の数理
Taiji Suzuki
•
78.4K visualizações
backbone としての timm 入門
Takuji Tahara
•
5.9K visualizações
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
•
7.1K visualizações
機械学習と自動微分
Ichigaku Takigawa
•
1.5K visualizações
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
•
873 visualizações
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
•
1.5K visualizações
生成モデルの Deep Learning
Seiya Tokui
•
47.6K visualizações
Transformer メタサーベイ
cvpaper. challenge
•
25.8K visualizações
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
•
28.2K visualizações
Similar a 【DL輪読会】Scaling Laws for Neural Language Models
(20)
Zhongyuan Zhu - 2015 - Evaluating Neural Machine Translation in English-Japan...
Association for Computational Linguistics
•
75 visualizações
Lexically constrained decoding for sequence generation using grid beam search
Satoru Katsumata
•
442 visualizações
Colombo14a
AlferoSimona
•
5 visualizações
Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...
Sri Ambati
•
1.6K visualizações
Scimakelatex.93126.cocoon.bobbin
Agostino_Marchetti
•
460 visualizações
Pauls klein 2011-lm_paper(3)
Red Over
•
395 visualizações
Scimakelatex.83323.robson+medeiros+de+araujo
Robson Araujo
•
426 visualizações
The Smart Way To Invest in AI and ML_SFStartupDay
Amazon Web Services
•
363 visualizações
Implementing a neural network potential for exascale molecular dynamics
PFHub PFHub
•
1.1K visualizações
ADAPTIVE AUTOMATA FOR GRAMMAR BASED TEXT COMPRESSION
csandit
•
99 visualizações
Plug play language_models
Mohammad Moslem Uddin
•
205 visualizações
Effective Data Retrieval in XML using TreeMatch Algorithm
IRJET Journal
•
113 visualizações
Explainable AI
Arithmer Inc.
•
1.3K visualizações
cug2011-praveen
Praveen Narayanan
•
107 visualizações
Deep Learning for Information Retrieval: Models, Progress, & Opportunities
Matthew Lease
•
5.1K visualizações
Accelerating sparse matrix-vector multiplication in iterative methods using GPU
Subhajit Sahu
•
35 visualizações
master_thesis_greciano_v2
M. Christian Greciano, MSc
•
155 visualizações
Declarative Multilingual Information Extraction with SystemT
Laura Chiticariu
•
239 visualizações
Graph-to-Graph Transformer for Transition-based Dependency Parsing
Alireza Mohammadshahi
•
96 visualizações
Available methods for predicting materials synthesizability using computation...
Anubhav Jain
•
16 visualizações
Anúncio
Mais de Deep Learning JP
(20)
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Deep Learning JP
•
6 visualizações
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
•
729 visualizações
【DL輪読会】GPT-4Technical Report
Deep Learning JP
•
857 visualizações
【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...
Deep Learning JP
•
223 visualizações
【DL輪読会】Reward Design with Language Models
Deep Learning JP
•
591 visualizações
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
Deep Learning JP
•
270 visualizações
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
Deep Learning JP
•
201 visualizações
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
•
345 visualizações
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
•
774 visualizações
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
1K visualizações
【DL輪読会】Segment Anything
Deep Learning JP
•
1.7K visualizações
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Deep Learning JP
•
235 visualizações
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
Deep Learning JP
•
413 visualizações
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
Deep Learning JP
•
234 visualizações
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
Deep Learning JP
•
319 visualizações
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
•
335 visualizações
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
•
449 visualizações
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
592 visualizações
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
•
1.2K visualizações
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
•
709 visualizações
Último
(20)
SRE-Week-09-Refining-the-system-definition-05052023-114706pm.pptx
Hassankhalid894940
•
0 visão
Hybrid Mobile App Development Frameworks.pdf
TarunTiwari94
•
0 visão
Migrating to the Cloud - From Preparation to Operation copy.pdf
Symptai Consulting Limited
•
0 visão
2023 Global Privacy Benchmarks Survey - Webinar May 30 2023.pdf
TrustArc
•
0 visão
Ethereum's Transaction Momentum: Closing the Gap with Visa
Mobiloitte Technologies
•
0 visão
AI Intro.pptx
DSCYorkU
•
0 visão
My College Project
AKHILAASOK
•
0 visão
Ignite the future of clincial trials with Clinion AI
shirleyraghu
•
0 visão
Managing a WordPress Multisite Network
Jonathan Bossenger
•
0 visão
Theben DALI-2 Room Solution
Ivory Egg
•
0 visão
UiPath Community - Dallas - Studio Web.pdf
DianaGray10
•
0 visão
CDP_Presentation.pptx
Abbas335883
•
0 visão
ChatGPT_Prompts.pptx
Chakrit Phain
•
0 visão
Varanasi_Meetup_Universal API Managment.pdf
Santosh Ojha
•
0 visão
Advanced Testing
Postman
•
0 visão
How to use ChatGPT for an ISMS implementation.pdf
Andrey Prozorov, CISM, CIPP/E, CDPSE. LA 27001
•
0 visão
Internship_Report_Projects_have_done_Dur.pdf
HikMan2
•
0 visão
Studying the materials used in weapons during Chhatrapati Shivaji Maharaj era
Sagarwalanj
•
0 visão
澳洲查尔斯达尔文大学毕业证文凭成绩单制作指南
nahej99297
•
0 visão
PPT-Security-for-Management.pptx
RSAArcher
•
0 visão
Anúncio
【DL輪読会】Scaling Laws for Neural Language Models
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ “Scaling Laws for Neural Language Models” (2020) Itsuki Okimura, PSI B3
アジェンダ 1. 書誌情報 2. Scaling
Law 3. 概要 4. 設定 5. 結果 6. その他の結果 7. まとめ 8. その後 2
1 書誌情報 • 論文名:
Scaling Laws for Neural Language Models • 出典:arXiv https://arxiv.org/abs/2001.08361 • 著者: Jared Kaplan, Sam McCandlish, Tom Henighanら OpenAIのチーム • 選択理由:AGIの実現をミッションとするOpenAIがScaling Lawに初めて 言及したGPT-3, DALL・Eなどの大規模モデルを作る動機のような論文 Transformerアーキテクチャの他分野への一般化 3
2 Scaling Law Scaling
Law :べき乗則 𝑓 𝑥 = 𝑎𝑥𝑘 Ex.万有引力, クーロン力, ジップの法則, … 両辺で対数をとると log 𝑓(𝑥) = klog 𝑥 + log(𝑎) となり, 直線関係の式となる。 性質:スケール不変性 独立変数𝑥のスケールを変化させても, 関数のスケーリングの比例に帰結する 𝑓 𝑐𝑥 = 𝑎 𝑐𝑥 𝑘 = 𝑐𝑘 𝑓(𝑥) ∝ 𝑓(𝑥) どのスケールでも同じような秩序が存在する 4
2 Scaling Law ここ数年OpenAIはScaling
Lawに関する論文と大規模モデルを 交互に発表している 5 GPT-2 (2019 Feb) Scaling Laws for Neural LM (2020 Jan) GPT-3 (2020 May) Scaling Laws for Autoregressive GM (2020 Oct) DALL·E CLIP (2021 Jan) Scaling Laws for Transfer (2021 Feb) ??? https://deeplearning.hatenablog.com/entry/scaling_law参考に作成
2 Scaling Law 本発表ではGPT-2とGPT-3の間に発表された論文について紹介 6 GPT-2 (2019
Feb) Scaling Laws for Neural LM (2020 Jan) GPT-3 (2020 May) Scaling Laws for Autoregressive GM (2020 Oct) DALL・E CLIP (2021 Jan) Scaling Laws for Transfer (2021 Feb) ???
3 概要 問題意識 自己回帰型言語モデル:それまでの単語から次の単語を予測する確率モデル 𝑃 𝑤𝑛+1
𝑤1, ⋯ , 𝑤𝑛 Ex. GPT, GPT-2 数ある語彙の中からある単語を選ぶタスクであるので, クロスエントロピーが性能の指標となる。 →この性能はモデルアーキテクチャ, モデルのサイズ, モデルを訓練するために使用される計算能力, および この訓練プロセスで利用可能なデータに依存するのでは? 7
3 概要 • Transformer言語モデルにおける損失をモデルアーキテクチャ,
モデルのサイズ, モデルを訓練するための計算能力,およびこの訓練プロセスで利用可能なデータへの依存性を 様々な条件で変えて検証。 • 言語モデルの性能はスケールに大きく依存し, モデル形状に弱く依存する。 • 具体的には, 他の2つにボトルネックがない場合,学習のための計算能力C, データセットのサイズD,モデルのパラメータ数N(embedding除く)と性能の間で べき乗則が観測された。 8
3 概要 他にも • オーバーフィッティングの普遍性:パラメータ数NとデータサイズDの内片方が固定されていると 片方を増加させても,
パフォーマンスにペナルティを受ける。 このペナルティはN0.74/Dに依存する。 (パラメータ数を8倍にすると, データ数を5倍にする必要がある) • 訓練の普遍性:訓練曲線は予測可能な力則に従うもので, そのパラメータはモデルサイズにほぼ依存しな い。訓練曲線の初期部分を外挿することで, より長く訓練した場合に達成される損失をおおよそ予測するこ とが可能。 • サンプル効率:大規模モデルは小規模モデルよりもサンプル効率が高く, より少ない最適化ステップとより 少ないデータ・ポイントで同じレベルの性能に到達する。 • 大規模モデルの効率性:計算リソースが固定されている場合, 非常に大規模なモデルを学習することで最 適な性能が達成できる。 • 最適バッチサイズ:これらのモデルを学習するための理想的なバッチサイズは損失の累乗で表され, 勾配 ノイズスケールを測定することで決定可能。 9
4 設定 L: テストデータにおける言語モデルのクロスエントロピー損失 N:
語彙とPositional Embeddingを除くパラメーター数 C ≈ 6NBS: embedding以外の計算能力の推定値(B: バッチサイズ, S: ステップ数) 単位PF-days(= 1015 × 24 × 3600 = 8.64 × 1019fpo) D:トークン単位のデータセットサイズ 10 主要なパラメーター
4 設定 パラメーターの概算方法 Transformerにおいて𝑑𝑎𝑡𝑡𝑛 = 𝑑𝑓𝑓 4 =
𝑑𝑚𝑜𝑑𝑒𝑙より N ≈ 12𝑛𝑙𝑎𝑦𝑒𝑟𝑑𝑚𝑜𝑑𝑒𝑙 2 またバックワードパスの計算量は一般にフォーワードパスの2倍となるため C ≈ 6N 11
4 設定 学習手順 デコーダーのみのTransformerモデルで 1024トークンのコンテキストで平均化されたクロスエントロピー損失を Adamオプティマイザを用いて最適化、 1024トークンの512シーケンスのバッチサイズで、2.5 ×
105ステップでモデルを学習 実験設定 言語モデルのスケーリングを特徴づけるために モデルサイズN(768 ~ 1.5 × 1019 ), データセットサイズD(22 × 106 ~23 × 109 ), 形状(深さ、幅、アテンションヘッド、フィードフォワード次元など) を変化させ, 様々なモデルを訓練。 12
4 設定 データセット Webtext2(Webから収集された96GBのテキストと1.62 ×
1010語を含む 20.3Mのドキュメント)をトークナイズし、一部をテストデータとして確保。 Books Corpus, Common Crawl, 英語版Wikipedia, および一般に公開されている イン ターネット書籍についてもテストを行う。 13
5 結果 性能はモデルサイズNに大きく依存する 14 Embeddingを含んだパラメーター数を軸にとると性能はレイヤー数に依存するように見えるが, Embeddingを除 いたパラメーター数を軸にとると2層以上のモデルは一つの直線に帰着する
5 結果 訓練セットと異なる分布のデータセットにおける性能 15 訓練データ以外のデータセットにおいてもパラメータ数の推移とともに滑らかな改善
5 結果 同様に計算リソースC, データセットサイズDにも性能は依存 16
5 結果 モデルの形状はそれほど性能に影響を与えない 17 Nを固定しフィードフォワード比(𝑑𝑓𝑓/𝑑𝑚𝑜𝑑𝑒𝑙), パラメータ
アスペクト比(𝑑𝑚𝑜𝑑𝑒𝑙/𝑛𝑙𝑎𝑦𝑒𝑟)アテンションヘッド次元 (𝑑𝑚𝑜𝑑𝑒𝑙/𝑛ℎ𝑒𝑎𝑑 )を変えLossを比較したが, 性能はあまり変化しない
6 その他の結果 LSTMとの比較 18 LSTMはコンテキストの初期に位置するトークンに対してはTransformerと同様の性能を示すが, それ以降のトークンに対してはTransformerの性能に及ばない
6 その他の結果 大規模モデルのサンプル効率 19 大規模モデルは目的とする性能に対して, より少ないサンプル数によって到達する
6 その他の結果 矛盾点 20 • そもそも,
自然言語のクロスエントロピーは0にはならない。 • データサイズDと計算リソースC間にはオーバーフィッティングを避けるための制約条件が存在し, L(Cmin)で予測される性能は最終的にL(D)の力則で設定された下限値に達する。
7 まとめ • 言語モデルの性能はスケールに大きく依存し,
モデル形状に弱く依存する。 – 他の2つにボトルネックがない場合,学習のための計算量C, データセットのサイズD, モデルのパラメータ数Nと性能Lの間でべき乗則が観測された。 • 言語モデルにおけるLossの下限値は存在するため, その点に到達する前までに べき乗則は崩壊するはず。 – ただ, その計算量とモデルサイズまでは現時点では何桁も離れている。 21
8 その後 GPT-3のLoss 22 Scaling Lawをモチベーションとして OpenAIはGPT-2の100倍以上の パラメーターを持つGPT-3を発表。 GPT-3の論文内でも Lossと計算リソースのべき乗則は 102のオーダーで続いていることが 示された。 一方で,
もっとも大きいモデルを 示す黄色の曲線は少し外れる。 なんとも言えないらしい。。
8 その後 Scaling Laws
for Autoregressive Generative Modeling 23 GPT-3の論文内で示唆された マルチモーダルへの展開 言語モデルで見られた 計算リソース, モデルサイズに関するScaling Lawを生成的画像・動画モデリング・マルチ モーダル・数式といった ドメインの自己回帰型生成モデルにまで拡 大 Text2Image→DALL·E
8 その後 Scaling Laws
for Transfer 24 Zero-shot, Few-shotではなく Fine-tuneに関する論文 Fine-tuneにおいて事前学習することで 同じ損失を達成するまでに 減らすことができるデータ量𝐷𝑇について, ファイン チューニングで使用したデータ量𝐷𝐹,事前学習モ デルのパラメータ数𝑁の間で 以下のべき乗則が観測された。 𝐷𝑇 ∝ 𝐷𝐹 𝛼 𝑁𝛽 下流のタスクにおいても モデルサイズの重要性を示す
8 その後 ??? 25 • Bidirectional化??? –
GPT-3論文内で示唆 • 強化学習でのFine-tuning??? – GPT-3論文内で示唆 – Fine-Tuning Language Models from Human Preferences(2019) • 多言語化??? – T5→mT5的な
参考文献 Kaplan, J., McCandlish,
S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361. Henighan, T., Kaplan, J., Katz, M., Chen, M., Hesse, C., Jackson, J., ... & McCandlish, S. (2020). Scaling laws for autoregressive generative modeling. arXiv preprint arXiv:2010.14701. Hernandez, D., Kaplan, J., Henighan, T., & McCandlish, S. (2021). Scaling Laws for Transfer. arXiv preprint arXiv:2102.01293. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165. Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., ... & Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593. Ryobot(2021) ” OpenAIが発見したScaling Lawの秘密” https://deeplearning.hatenablog.com/entry/scaling_law 26
DEEP LEARNING JP [DL
Papers] “Scaling Laws for Neural Language Models” (2020) Itsuki Okimura, PSI B3 http://deeplearning.jp/
Anúncio