SlideShare a Scribd company logo
Enviar pesquisa
Carregar
Entrar
Cadastre-se
【論文読み会】Universal Language Model Fine-tuning for Text Classification
Denunciar
ARISE analytics
Seguir
ARISE analytics
30 de May de 2019
•
0 gostou
•
1,911 visualizações
1
de
23
【論文読み会】Universal Language Model Fine-tuning for Text Classification
30 de May de 2019
•
0 gostou
•
1,911 visualizações
Baixar agora
Baixar para ler offline
Denunciar
Dados e análise
論文「Universal Language Model Fine-tuning for Text Classification」について輪読した際の資料です。
ARISE analytics
Seguir
ARISE analytics
Recomendados
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
6.7K visualizações
•
54 slides
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
7.4K visualizações
•
43 slides
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
3.6K visualizações
•
52 slides
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
2.4K visualizações
•
15 slides
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
2.8K visualizações
•
25 slides
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
3.5K visualizações
•
24 slides
Mais conteúdo relacionado
Mais procurados
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
16K visualizações
•
63 slides
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
15.3K visualizações
•
38 slides
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
5.3K visualizações
•
33 slides
Active Learning 入門
Shuyo Nakatani
51.5K visualizações
•
60 slides
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
14.3K visualizações
•
19 slides
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
1.5K visualizações
•
23 slides
Mais procurados
(20)
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
•
16K visualizações
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
•
15.3K visualizações
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
•
5.3K visualizações
Active Learning 入門
Shuyo Nakatani
•
51.5K visualizações
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
•
14.3K visualizações
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
•
1.5K visualizações
【解説】 一般逆行列
Kenjiro Sugimoto
•
80K visualizações
Transformerを雰囲気で理解する
AtsukiYamaguchi1
•
4.7K visualizações
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
•
3.3K visualizações
PRML学習者から入る深層生成モデル入門
tmtm otm
•
5.6K visualizações
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
•
3.7K visualizações
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
•
28.8K visualizações
Data-Centric AIの紹介
Kazuyuki Miyazawa
•
3.7K visualizações
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
Deep Learning JP
•
1.2K visualizações
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
•
19.1K visualizações
深層学習の数理
Taiji Suzuki
•
79.3K visualizações
[DL輪読会]Attention Is All You Need
Deep Learning JP
•
18K visualizações
最適化超入門
Takami Sato
•
172.2K visualizações
LSTM (Long short-term memory) 概要
Kenji Urai
•
42.7K visualizações
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
•
14.2K visualizações
Similar a 【論文読み会】Universal Language Model Fine-tuning for Text Classification
サービスのスケール化のための検索システム改善
PIXTA Inc.
1.9K visualizações
•
46 slides
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
Hinemos
4.1K visualizações
•
53 slides
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
5.2K visualizações
•
23 slides
転移学習ランキング・ドメイン適応
Elpo González Valbuena
1.1K visualizações
•
12 slides
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
153 visualizações
•
32 slides
Icml2018読み会_overview&GANs
Kentaro Tachibana
2.8K visualizações
•
37 slides
Similar a 【論文読み会】Universal Language Model Fine-tuning for Text Classification
(9)
サービスのスケール化のための検索システム改善
PIXTA Inc.
•
1.9K visualizações
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
Hinemos
•
4.1K visualizações
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
•
5.2K visualizações
転移学習ランキング・ドメイン適応
Elpo González Valbuena
•
1.1K visualizações
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
•
153 visualizações
Icml2018読み会_overview&GANs
Kentaro Tachibana
•
2.8K visualizações
Erpと自然言語処理
Works Applications
•
1.2K visualizações
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
Takahiro Kubo
•
37.9K visualizações
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
Kanji Takahashi
•
1.7K visualizações
Mais de ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
112 visualizações
•
24 slides
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
812 visualizações
•
21 slides
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
524 visualizações
•
18 slides
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
432 visualizações
•
17 slides
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
5.1K visualizações
•
27 slides
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics
482 visualizações
•
29 slides
Mais de ARISE analytics
(14)
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
•
112 visualizações
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
•
812 visualizações
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
•
524 visualizações
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
•
432 visualizações
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
•
5.1K visualizações
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics
•
482 visualizações
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics
•
452 visualizações
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics
•
667 visualizações
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
•
2.4K visualizações
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics
•
553 visualizações
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics
•
648 visualizações
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics
•
643 visualizações
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
•
27.2K visualizações
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
•
7.7K visualizações
【論文読み会】Universal Language Model Fine-tuning for Text Classification
1.
©2018 ARISE analytics 2018/08/24 鶴野
瞬 論文読み会 Universal Language Model Fine-tuning for Text Classification
2.
©2018 ARISE analytics
2 概要 タイトル: Universal Language Model Fine-tuning for Text Classification 著者: Jeremy Howard, Sebastian Ruder https://arxiv.org/pdf/1801.06146.pdf 一言で言うと すごい点 感想 大規模コーパスで学習させた言語モデルを転移学習させる アノテーション無しの事前学習によって、分類タスクの精度が向 上 BERTなどに比べて精度向上幅は小さそうだが、少ない計算量で精 度改善できるのは魅力的 モチベーション 転移学習を使って高精度なテキスト分類モデルを簡単に作りたい
3.
©2018 ARISE analytics
3 本日の論文 主旨:転移学習を用いて、少量のデータでも高精度のテキスト分類モデルを構築する手法 (ULMFiT)を開発した 出典: https://arxiv.org/pdf/1801.06146.pdf Annual Meeting of the Association for Computational Linguistics (ACL 2018)に採択された
4.
©2018 ARISE analytics
4 自然言語処理(NLP)とは NLPとは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことである。 典型的なタスクには、テキスト分類や機械翻訳、質疑応答などがある。 • NLPの典型的なタスクとその応用例 機械翻訳: google翻訳 情報検索: google検索 言語モデリング: テキスト入力予測 テキスト分類: 記事のカテゴリ分け 質疑応答: チャットボット
5.
©2018 ARISE analytics
5 教師データが少ないときの対処方法 NLPタスクに取り組んでいて、教師データの入手に苦労した。 教師データが少ないときの対処方法の一つに、転移学習(Transfer learning)がある 出典: http://publications.idiap.ch/downloads/papers/2011/Tommasi_CVPR2010.pdf モデルの精度と訓練量の関係
6.
©2018 ARISE analytics
6 転移学習とは 転移学習とは、あるタスク/ドメインで学習させたモデルを別のタスク/ドメインに適応させる技術のことで ある 出典: https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf 通常の教師あり学習 転移学習
7.
©2018 ARISE analytics
7 転移学習の方法 典型的な転移学習の方法は、深層学習(DL)モデルを大きなデータセットで訓練した後、タスク用の データを使って出力近くの層を訓練し直すことである 出典: https://arxiv.org/pdf/1808.01974.pdf
8.
©2018 ARISE analytics
8 NLPにおける転移学習の例: word2vec NLPでよく使われる転移学習の例として、事前学習した単語ベクトルをモデルの入力層に用いることが ある。しかし、単語レベルの情報しか転移できない。 出典: https://www.aclweb.org/anthology/N13-1090 性別 単数/複数
9.
©2018 ARISE analytics
9 NLPにおける転移学習の例: CoVe より高次の転移学習としては、機械翻訳モデルのエンコーダー部分の出力を使った例がある。 しかし、タスクごとにモデルを作る必要がある。 Learned in Translation: Contextualized Word Vectors https://arxiv.org/abs/1708.00107
10.
©2018 ARISE analytics
10 言語モデルとは 言語モデルとは、ある単語列が与えられたときに次の単語を予測するモデルである。 教師ラベルを付与することなく構築でき、言語の高次な特徴を学習する。 ※http://ruder.io/transfer-learning/index.html 言語モデル タスク 言語モデルが学習する(と思われる)特徴※ • 言語の構造 • 単語間の関係、共起しやすさ • 文中で離れている単語間の依存 • etc 転移学習に用いられないか? 今日 の 昼食 は とんこつ __ • ラーメン 97% • うどん 2% • カレー 0.5% • … … 予測
11.
©2018 ARISE analytics
11 AWD-LSTM AWD-LSTMはRNNを用いた高精度な言語モデルである。 本日の論文で用いられている。 ※ https://arxiv.org/pdf/1708.02182.pdf LSTM LSTM LSTM モデルの構成 言語モデルの精度(perplexity)※
12.
©2018 ARISE analytics
12 ULMFiT 本論文で提案されたULMFiTとは、大量のテキストを使って言語モデルを訓練した後、転移学習によっ てタスク用の分類モデルを作成する汎用的な手法である。実現のために複数のテクニックを用いている。 出典: https://arxiv.org/pdf/1801.06146.pdf 言語モデル 事前訓練 言語モデル fine-tuning 分類モデル fine-tuning WikiText-103 (1億個以上の単語) タスクのテキスト タスクのテキスト+教師ラベル 使用 データ テクニック 学習率を層によって変 える(Discriminative fine-tuning) 学習率をイテレーション よって変える(Slanted triangular learning rates) 出力層側から徐々に解 凍する(Gradual unfreezing) 1 2 3
13.
©2018 ARISE analytics
13 fine-tuningのテクニック 上記テクニックによって、事前学習で学んだことを忘れないようにしながら、分類タスクにモデルを最適化 させることを狙っている 学習率を層によって変える (discr) 学習率をイテレーションよって変える (stlr) 学 習 率 大 小 出力層側から徐々に解凍する (freez) 解 凍 順 序 各層は異なる抽象度/情報を捉えるので、 それぞれに適した程度でチューニングする モデルのパラメータをタスク特異的な特徴 に適応させるため、はじめにパラメータ空間 内の探索領域を大きく変え、その後にゆっ くりと最適解を探索する 1 2 3 入力層に近いほど言語の一般的な情報 を捉えているので、それを忘れないように学 習する
14.
©2018 ARISE analytics
14 分類タスク 試したタスクは、感情分析、質問分類、トピック分類の3種類(6データセット)。 データセットのサイズ、分類クラス数は様々。
15.
©2018 ARISE analytics
15 ULMFiTモデルの分類精度 試したすべてのタスクにおいて、state-of-the-artの成績を達成した
16.
©2018 ARISE analytics
16 小さなデータセットに対する精度 ULMFiTを使うと、ゼロからモデルを訓練する場合に比べて数分の1から数百分の1のサイズのデータ セットで同等の精度を得られた 言語モデルのfine-tuning時に使用するデータによって、2つのシナリオを試している。supervised:ラベル付きデータ のみ、 semi-supervised:全データ fine-tuning用データのサイズと分類精度の関係 感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG) データサイズ 25k 5.5k 120k
17.
©2018 ARISE analytics
17 言語モデル事前学習の効果 言語モデルの事前学習は、分類モデルの精度向上に有用である。 影響の程度は小さなデータセットで顕著である。 事前学習の有無による分類精度の違い
18.
©2018 ARISE analytics
18 言語モデルの質の影響 言語モデルの質は分類モデルの精度に影響する。 影響の程度は小さなデータセットで顕著である。 Vanilla LMはAWD-LSTM LMからdropoutを除いたもの モデル構成による分類精度の違い
19.
©2018 ARISE analytics
19 言語モデルfine-tuningの効果 言語モデルのfine-tuningは、分類モデルの精度向上に有用である。 精度向上に学習率に関するテクニックが効果的である。 Fullは全層をfine-tuningすること 言語モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック 学習率を層によって変 える(discr) 学習率をイテレーション よって変える(stlr) 1 2
20.
©2018 ARISE analytics
20 分類モデルfine-tuningの効果 分類モデルのfine-tuningは、分類モデルの精度向上に有用である。 精度向上に開発したテクニックが効果的である。 Fullは初めから全層を解凍してfine-tuningすること 分類モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック 学習率を層によって変 える(discr) 学習率をイテレーション よって変える(stlr) 出力層側から徐々に解 凍する(freez) 1 2 3
21.
©2018 ARISE analytics
21 転移学習による忘却 分類モデルのfine-tuning時に上記のテクニックを使うことで、事前学習で学んだこと情報を忘れずに、 分類精度を向上させることができる fine-tuning用データのサイズと分類精度の関係 感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG) テクニック有 テクニック無 学習エポック エラー率
22.
©2018 ARISE analytics
22 類似の取り組み テキスト分類以外のタスク(含意、類似判定、Q&A)でも、言語モデルをベースにしたモデルを構築する ことで高い精度が得られる Improving Language Understanding by Generative Pre-Training https://openai.com/blog/language-unsupervised/ モデル構成とタスク用fine-tuning 含意タスクに対するモデルの精度 • 注意機構を持ったモデル(Transformer)を使用した • fine-tuning時にタスク用データの入力方法を工夫した