SlideShare uma empresa Scribd logo
1 de 41
深層学習を用いた文
生成モデルの歴史と
研究動向と僕の研究
日本マイクロソフト株式会社
Cloud Solution Architect
伊藤駿汰
Agenda 1. 文生成とは
2. 文生成モデルの歴史
3. 最近の研究動向
4. おまけ:僕の研究
例外や特殊な場合を省い
たり、詳細を省略してい
る場合にスライド中に†
(短剣符)を付記しま
す。
言葉の構成単位
 文字
 言語を表記するために使われる記号の最小単位
 Ex) a, あ, 1, 自
 単語(𝑤 𝑛 )
 文字を組みあわせて作られる、意味を表し構文上の働きを持つ最小単位
 Ex) Natural, 自然
 文(𝑤1 … 𝑤 𝑛 、 𝐰 )
 単語を組み合わせて作られる、一区切りのまとまりある考え等を示すもの
 単語列(𝑤1 … 𝑤𝑖 )
 単語を並べたもの
 文も単語列の一種
文生成とは
文生成
 単語の数、単語の種類、単語の順番を決定すること†
一定の制限を入れないと解けない
次単語予測を骨格とした文生成
次単語予測
 ある単語列が与えられたとき、次に来る単語を予測すること
 Ex) スマートフォンの予測入力
私 は 緊張 し て いる
次単語予測
 ある単語列が与えられたとき、次にどの単語になるか確率を計算
し、最も確率が大きい単語を選ぶ†
単語列𝑤1 … 𝑤𝑖−1が与えられたとき、次単語𝑤𝑖が生じる条件付き確率
𝑃 𝑤𝑖 𝑤1 … 𝑤𝑖−1 を計算したい
文生成
 最初の単語Aを予測し、Aから次の単語Bを予測し、ABという単語列
から次の単語Cを予測し……という流れを文が終わるまで繰り返す
 単語の予測を最初から最後までやると「文生成」
私 は 緊張 し て いる
文生成モデルの歴史
文生成の歴史は言語モデルの歴史
言語モデル
 ある文𝐰が生じる確率を与える確率分布𝑃 𝐰 のこと
𝑃 𝐰 が分かると……
 複数の文の間で「それっぽさ(尤度)」を比較できるようになる
 分布からいくらでも文を生成できそう
生成した文の良し悪しを定量的に比較できる
言語モデル
 文を構成する単語の数は可変
 1種類の言語には数万程度の単語が存在
組み合わせが膨大、𝑃 𝐰 の計算は無理
逐次的なアプローチで近似する†
 𝑃 𝐰 ~ 𝑖=1
𝑛
𝑃 𝑤𝑖 𝑤1 … 𝑤𝑖−1
「次に来る単語はそれより前の単語が何かで決まる」と仮定
N-gram言語モデル
 N-gram:N個の連続する単語
 ある単語より前の単語全部見るのは辛い(多すぎる)ので、見る数
を決めて計算を軽くする
私 は 緊張 し て いる
2-gram
3-gram
N-gram言語モデル
 𝑃 𝐰 ~ 𝑖=1
𝑛
𝑃 𝑤𝑖 𝑤1 … 𝑤𝑖−1 ~ 𝑖=1
𝑛
𝑃 𝑤𝑖 𝑤𝑖+1−𝑁 … 𝑤𝑖−1
 前の𝑁 − 1個の単語の並びに対し、次に来そうな単語の確率
𝑃 𝑤𝑖 𝑤𝑖+1−𝑁 … 𝑤𝑖−1 が分かれば𝑃 𝐰 が計算できる
たくさんのデータから統計的に𝑃 𝑤𝑖 𝑤𝑖+1−𝑁 … 𝑤𝑖−1 は得られる
 𝑃 𝑤𝑖 𝑤𝑖+1−𝑁 … 𝑤𝑖−1 があれば次単語予測ができて文生成できる
言語モデル 次に来る単語はそれより前の単語が何かで決まるという仮定
統計的手法を用いる文生成
ここまでの流れ
 「ある単語列の次にはどの単語が来やすいか」を考える逐次的アプ
ローチ
 文全部を考慮するのは計算量的に困難なので、部分(N-gram)に
区切る
 現実的な計算量としては5-gram程度が限界
 Pitman-Yor過程を用いた可変長N-gramモデル等で緩和の試み
生じてきた問題点
 精度が頭打ち
深層学習を用いた言語モデルと文生成
深層ニューラルネットワークの学習
 深層ニューラルネットワークモデルの学習には入力と正解が必要
 モデルの推定した出力=予測が正解に近くなるように学習を進めて
いく
近似的に入力から出力への変換を行うモデルを得られる
ニューラルネット
ワーク入力
予測 正解
誤差
更新
RNN言語モデル(Mikolov et al, 2010)
 Recurrent Neural Network(Rumelhart et al, 1986)は時系列を考慮
して予測を作るニューラルネットワークモデル
 時系列と単語の順番を対応させれば言語モデルっぽい
RNN
ヤドン に なり たい
𝑷 𝒘 っぽいもの
RNN言語モデル
 𝑷 𝒘 が得られないので、入力:文、正解: 𝑷 𝒘 という学習は不可
 代わりにある単語を入れたとき、次に来る単語の確率を予測させる
入力:単語、正解:次の単語となり学習できる
<S>
ヤドン に なり たい
𝑃 𝑤2 𝑤1 𝑃 𝑤3 𝑤1 𝑤2 𝑃 𝑤4 𝑤1 … 𝑤3 𝑃 𝑤5 𝑤1 … 𝑤4
RNNの問題点
 プレーンなRNNは、遠い過去のデータの情報が急速に消えていくも
しくは爆発的に増大していく問題を抱えていた
 LSTM(Hochreiter et al, 1997)やGRU(Cho et al, 2014)といった
手法によって十分学習可能な水準に到達
以後、「RNN」はプレーンRNNと改善手法を含む総称として使う
Seq2Seq (Sutskever et al, 2014)
 文の意味を取り出すエンコーダーRNN、取り出した意味から文を生
成するデコーダーRNNを繋げて、文から文への変換を行うモデル
 翻訳タスクで当時のSoTA
Seq2Seq + Attention(Luong et al, 2015)
 過去の情報を重みづけして再度利用するAttention機構をSeq2Seqに
追加して精度を改善したモデル
深層学習時代の文生成の発展~RNN時代~
ここまでの流れ
1. RNN言語モデルの勃興、逐次的なアプローチを深層学習で表現
 ある単語より前の単語列全体を考慮できるようになった†
2. RNN言語モデルをデコーダーとして、何らかの目的(翻訳、対話、要約等)を持った文生
成(文変換)を行うモデルの登場
3. Attentionによる長期依存問題の緩和
生じてきた問題点
 RNNは過去の情報を処理してからでないと次の時間の情報を処理できない構造であるため、
計算に時間がかかり大規模化が難しい
 Attentionを使ってなお、長期依存を上手く取れない問題は残る
Transformer (Vaswani et al, 2017)
 Seq2Seqと同じ文変換を行うモデル
 再帰構造を持たないニューラルネットワークとAttentionのみで構成
され、高速
 翻訳タスクにおいて、RNN系手法よりはるかに少ない学習でSoTA
BERT (Devlin et al, 2018)
 巨大なTransformer Encoder
 2種類の言語モデル的事前学習
 マスクされた単語の予測
 文の連続判定
 膨大なデータで事前学習を行った後、少数のデータで目的タスクに
転移学習
 NLPの幅広いベンチマークでSoTA
工夫された事前学習によってTransformerの双方向学習が可能に
言語モデル的事前学習の有効性を示す
BERTの事前学習タスク①
 マスクされた単語の予測
BERTの事前学習タスク②
 文の連続判定
GPT-2 (Radford et al, 2019)
 巨大なTransformer Decoderで、膨大なデータを使って言語モデル的
な学習を行ったモデル
 翻訳や対話といった文変換モデルではなく、N-gramやRNN言語モ
デルと同じ逐次的に単語を予測していく文生成モデル
(I want to be a cat.) Sitting on Dieter's lap is a thing of
beauty.
(NLP is) not strictly true and may sometimes exaggerate.
It is necessarily an ongoing process.
深層学習時代の文生成の発展~Transformer時代~
1. 文変換(翻訳)モデル、Transformerの登場
① N-gramからRNN系のモデルまで根深く残っていた長期依存を上手く取れない問題は解決
② 軽量・高速で並列化に向く構造を持ち、大規模化への道が開ける
2. 言語モデル的な事前学習を行った巨大Transformer、BERTがあらゆ
るベンチマークのSoTAを書き換え、言語モデル的な事前学習とそ
の有効性を示す
3. GPT-2により、巨大事前学習モデルは極めて精度良く文を生成で
きることが示される
最近の研究動向
UniLM (Dong et al, 2019)
 Transformer(Prefix LM)を使った事前学習モデル
 複数種類の言語モデル学習を行う
 読解系タスクでBERTと同程度、生成系タスクでSoTA
https://arxiv.org/abs/1905.03197
T5(Raffel et al, 2019)
 Transformerと同じEncoder – Decoder構造を持つ巨大事前学習モデ
ル
 全てのタスクを文変換として事前学習を行う
 文生成系タスクを中心に幅広いタスクで極めて強力な性能を示す
https://arxiv.org/abs/1910.10683
GPT-3 (Brown et al, 2020)
 1750億パラメーターの超巨大
モデル
 BERT(Large):3.4億
 T5(11B):110億
 構造はGPT-2を踏襲
 モデルのパラメーター数を増や
すことで、少ないデータの転移
学習でも性能を出せるようにな
る
https://arxiv.org/abs/2005.14165
トレンドの推移
2018年
 NLPの主流モデルの座LSTMからTransformerへ
 Transformer改善(軽量化、構造改良等)の動き
 BERTがNLPの幅広いタスクでSoTAの衝撃
2019年
 BERTの流れを汲む巨大事前学習モデルが次々と提案
 生成系タスクでも巨大事前学習モデル(GPT-2、T5等)が台頭
2020年
 GPT-3登場、モデルサイズを大きくすると少数データの転移学習で
も精度を維持できる可能性が示される
NLP
今後のトレンド予測
現状
 Self-Attention等のTransformerを構成する各要素の有効性について
知見が集積
 Transformerは精度改善もしくは軽量化の方向性で亜種の提案が継続
的に行われている
 GPT-3が示した「モデルを大きくすれば、たかだか数十程度のデー
タを用いた転移学習でも精度が出る」という方向性は、実用上極め
て重要
Transformer亜種の提案は今後も継続か
巨大モデル提案の動きがより拡大しそう
おまけ:僕の研究
Memory Attention(Ito, 2020)
Seq2Seq
発話に対して応答を生成する上で、
根拠となる文をAttentionで選ぶ
研究から得られた知見
 Attentionとは実質類似度の計算、情報の抽出に利用できる
 類似度を小さい計算負荷で大小関係を持った状態で得られる
 使い方によっては解釈性に繋がる
 Transformerは新しい情報の流れを追加することが難しいが、LSTM
ベースのSeq2Seqは比較的簡単
 シンプルなため、実装や構造検討に時間がかからない、「とりあえず」の実装として試す価
値あり
 文生成の自動評価は難しい、特に対話系の生成モデルは自動評価が
極めて困難
 BLEUやMETEOR等の自動評価指標は数多あるが、不適切
今回省略した話
 Word2Vec
 LSTMの双方向学習
 巨大RNN言語モデル、ELMo
 CNNを使用した並列化可能な文変換モデル、ConvS2S
 転移学習を用いた文生成
 Transformerに再帰構造を組み込む話
 GANを利用した文生成器作成
 BERTの改善と軽量化、ALBERT
 可変長Transformer、Transformer-XL
 他にも多数
© Copyright Microsoft Corporation. All rights reserved.

Mais conteúdo relacionado

Mais procurados

猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本Takahiro Kubo
 
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...Deep Learning JP
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3までYahoo!デベロッパーネットワーク
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
 

Mais procurados (20)

猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
 
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 

Semelhante a 深層学習を用いた文生成モデルの歴史と研究動向

さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword InformationKanji Takahashi
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) gsis gsis
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へHiroshi Nakagawa
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展Naoaki Okazaki
 
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...浩気 西山
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxNatsumi KOBAYASHI
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係Kosuke Sugai
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...Yuki Tomo
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentationRoy Ray
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsMakoto Takenaka
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
2015 08 survey
2015 08 survey2015 08 survey
2015 08 surveymarujirou
 
Keyword and Keyphrase Extraction Techniques: A Literature Review
Keyword and Keyphrase Extraction Techniques: A Literature ReviewKeyword and Keyphrase Extraction Techniques: A Literature Review
Keyword and Keyphrase Extraction Techniques: A Literature ReviewE-musu
 

Semelhante a 深層学習を用いた文生成モデルの歴史と研究動向 (20)

さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
 
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...Using continuous lexical embeddings to improve symbolicprosody prediction in ...
Using continuous lexical embeddings to improve symbolicprosody prediction in ...
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
 
Interop2017
Interop2017Interop2017
Interop2017
 
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
COLING2014 読み会@小町研 “Morphological Analysis for Japanese Noisy Text Based on C...
 
1 3-2
1 3-21 3-2
1 3-2
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word RepresentationsAll-but-the-Top: Simple and Effective Postprocessing for Word Representations
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
2015 08 survey
2015 08 survey2015 08 survey
2015 08 survey
 
Keyword and Keyphrase Extraction Techniques: A Literature Review
Keyword and Keyphrase Extraction Techniques: A Literature ReviewKeyword and Keyphrase Extraction Techniques: A Literature Review
Keyword and Keyphrase Extraction Techniques: A Literature Review
 

Último

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 

Último (11)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

深層学習を用いた文生成モデルの歴史と研究動向

Notas do Editor

  1. 𝑃 𝑤 𝑖 𝑤 𝑖+1−𝑁 … 𝑤 𝑖−1 があれば文生成ができますし、P(w)も手に入ります。色々と候補を作ってP(w)を計算し、どれがいいかを選ぶ、といったこともできます。
  2. Google翻訳の精度が急上昇
  3. 長期依存問題の緩和
  4. Google翻訳で使われる
  5. 実用上は少数のデータで目的タスクに適用できるという点が重要 学習データを作るコストを抑えられる
  6. 実用上の価値が生じてくる 例:翻訳、ニュース記事の自動要約や自動タイトル付け、ゲーム中などでのキャラクタースクリプトの自動生成 負の応用:フェイクニュースの生成、SNS上での大規模スパム