SlideShare uma empresa Scribd logo
1 de 22
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
MAUVE: Measuring the Gap
Between Neural Text and Human
Text using Divergence Frontiers
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
修士1年 花野愛里咲
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 著者
– Krishna Pillutla,Swabha Swayamdipta,Rowan
Zellers,John Thickstun,Sean Welleck,Yejin
Choi,Zaid Harchaoui
• 発表
– NeurIPS(2021)
• 論文URL
– https://arxiv.org/pdf/2102.01454.pdf
• コード
– https://github.com/krishnap25/mauve
論文情報 2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• オープンエンドテキスト生成のための
評価指標MAUVEの提案
• モデルによるテキストの分布と人間が書いた
テキストの分布の近さをKL divergenceを
用いて定量化
• 既存の評価指標よりも人間による評価との
相関が確認された
概要 3
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 大規模テキスト生成モデルは高品質・一貫性を
持つ人間のようなテキストの生成が可能
• モデルが生成したテキストと人間の言語の近さ
を測定することは依然として未解決
• 人間が書いたテキストの分布とモデルによる
テキスト分布のギャップの測定を目的とする
背景 4
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間のテキスト分布とモデルによるテキスト
分布のギャップは2種類のエラーから生じる
– タイプ1エラー:生成モデルが人間が書きそうも
ないテキストを生成する
– タイプ2エラー:生成モデルが人間が書きそうな
テキストを生成できない
• これらをKL divergenceを用いて定式化
提案手法 5
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• モデルによるテキスト分布Qと人間による
テキスト分布Pの混合分布𝑅𝜆をとる
• MAUVEは𝜆を(0, 1)で動かして得られた
ダイバージェンス曲線下の面積
• MAUVEの値が大きいほどQはPに近いことを示す
提案手法 6
𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄 𝜆 ∈ (0, 1)
横軸:タイプ1エラー
縦軸:タイプ2エラー
𝑐:スケーリングのための
ハイパーパラメータ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 問題点
– 人間のテキスト分布が未知
– 典型的なモデル分布では次元が高すぎる
• 推定手順
1. 人間のテキストとモデルのテキストをサンプリング
2. 言語モデルを用いて各テキスト列の埋め込みベクトル
を得る(GPT-2を使用)
3. 埋め込まれたサンプルを量子化(k-means法を使用)
• ベクトル量子化:データ集合をk個のクラスタに分割し,
各クラスタをk個の代表ベクトルで近似
4. 各クラスタ内のデータ数をカウントしてヒストグラム
を形成
• 高次元のテキスト分布を低次元の離散分布に
変換
提案手法 7
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
関連研究 8
• 他の評価指標の問題点
– 2つのエラーを考慮していない
– ダイバージェンス曲線上のある1点しか考慮していない
オープンエンドテキスト生成のための自動評価指標
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• タスク
– 与えられたテキストの続きを生成
• ドメイン:ウェブテキスト,ニュース,物語
• モデル
– ウェブテキストデータセットで事前学習したGPT-2
• デコーディングアルゴリズム
– ancestral sampling:言語モデルのステップごとの分布
から直接サンプリング
– greedy decoding:次の単語として最も確率の高い単語
を選択
– nucleus sampling:確率の合計がpを超えるような最小の
個数の候補を動的に決定
実験設定 9
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. 生成されたテキスト長,デコーディングアル
ゴリズム,モデルサイズの違いによる特性を
どのように定量化するのか
2. 埋め込みモデル,量子化アルゴリズム,
ハイパーパラメータの違いによらずロバスト
であるか
3. 人間の判断と相関があるか
実験 10
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
実験1-1
• 生成されたテキストの長さによる質の違いを
定量化できるか
– 生成するテキストの長さが長いほど質が悪化する[1]
• 比較指標の中でMAUVEだけがテキストの長さが
長いほど質が低下することを捉えている
– モデルサイズによらず一貫した傾向あり
[1] H. Rashkin, A. Celikyilmaz, Y. Choi, and J. Gao. PlotTMachines: Outline-Conditioned Generation with Dynamic
Plot State Tracking. arXiv Preprint, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
実験1-2
• デコーディングアルゴリズムによる質の違いを
捉えられるか
– Greedy sampling < Ancestral sampling < Nucleus
sampling の順にテキストの質が高い[2][3][4][5]
• MAUVEはデコーディングアルゴリズムの特徴を
捉えることができている
[2] A. Holtzman, J. Buys, M. Forbes, and Y. Choi. The Curious Case of Neural Text Degeneration. In Proc. of ICLR, 2020.
[3] S. Welleck, I. Kulikov, S. Roller, E. Dinan, K. Cho, and J. Weston. Neural Text Generation With Unlikelihood Training. In Proc. of ICLR, 2020.
[4] S. Welleck, I. Kulikov, J. Kim, R. Y. Pang, and K. Cho. Consistency of a Recurrent Language Model With Respect to Incomplete Decoding. In
Proc. of EMNLP, pages 5553–5568, 2020.
[5] A. Fan, M. Lewis, and Y. N. Dauphin. Hierarchical Neural Story Generation. In Proc. of ACL, pages 889–898, 2018.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
実験1-3
• モデルサイズによる質の違いを捉えられるか
– モデルサイズは大きいほどテキストの質が高い[6][7]
• MAUVEはモデルサイズの特徴を捉えることが
できている
[6] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever. Language Models are Unsupervised Multitask Learners. OpenAI
blog, 1(8):9, 2019.
[7] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A.
Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.
Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language Models are Few-Shot Learners. In
Proc. of NeurIPS, 2020.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 異なる埋め込みモデルでも同じ傾向を示すか
– RoBERTa largeとGPT-2 largeを比較
実験2-1 14
• 異なる埋め込みモデルでもMAUVEは以下の既知の
特性を示した
– モデルサイズが大きいほどテキストの質が高い
– Greedy sampling < Ancestral sampling < Nucleus sampling
の順にテキストの質が高い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 異なる量子化アルゴリズムを用いてもロバストで
あるか
– K-means法,Deep Residual Mixture Models(DRMM),
格子量子化を比較
• K=100から5000までの K-means法で計算された
MAUVEはデフォルトのK=500のときとほぼ完全
に相関する(相関係数は0.99または1.00)
• DRMMまたは格子量子化で計算されたMAUVEは
K-means法とほぼ完全な相関を持つ(相関係数は
0.99以上)
実験2-2 15
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• スケーリングパラメータcの値によらず
ロバストであるか
実験2-3 16
𝐶 𝑃, 𝑄 = {(exp −𝑐𝐾𝐿 𝑄 𝑅𝜆 , exp −𝑐𝐾𝐿 𝑃 𝑅𝜆
𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0, 1)}
• cの値はダイバージェンス曲線の相対的な順序
には影響を与えない
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間の判断と相関があるか
– 評価者は与えられた文章に続く文章を5段階の
リッカート尺度でペアから1つを選択
• Human-like:どちらの文章が人間が書いた可能性が高いか
• Interesting:どちらの文章がより面白いか
• Sensible:どちらの文章が論理的に正しいか
実験3 17
GPT-2のモデル
サイズ4種類
• small
• medium
• large
• xl
デコーディング
アルゴリズム2種類
• pure sampling
• nucleus sampling
人間が書いた
テキスト(継続文)
× +
• 文章は9種類あるためペアは36組
– 各組に対して90のアノテーションを取得
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 1対1の比較からランキングに変換するために
Bradley-Terryモデルを使用
実験3 19
• Bradley-Terryスコアと各評価指標の相関係数
を算出
Bradley-Terryスコア
(Bradley-Terryスコアは値が大きいほど評価者からの選好が強いことを示す)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間の判断と相関があるか
– 「human-like」「interesting」「sensible」の3つ
の指標を評価
• MAUVEは他の評価指標よりも人間の評価との
相関が大幅に高い
実験3 20
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• モデルのテキストと人間のテキストを識別する
分類器の精度との相関
– 分類器の精度が低いほど生成されたテキストは
人間のテキストとの識別が難しい
• 使用する分類モデル
– ニュース生成:Grover mega
– 物語生成:GPT-2
実験3 21
• MAUVEは他の比較指標よりも識別精度との相関
が最も高い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• モデルによるテキストと人間のテキストの
ギャップを測る自動評価指標MAUVEを提案
• MAUVEはテキストの生成長,デコーディング
アルゴリズム,モデルサイズの違いを捉え,
人間の判断と相関することが確認された
• 今後の展望:翻訳や要約などのクローズド
エンドなタスクへの拡張
まとめ 22

Mais conteúdo relacionado

Mais procurados

[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded Imagination[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded ImaginationDeep Learning JP
 
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...KIT Cognitive Interaction Design
 
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object DetectionDeep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」Hitomi Yanaka
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Plot Hong
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs Deep Learning JP
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...Deep Learning JP
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptxARISE analytics
 
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...Deep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 
[論文紹介] 機械学習システムの安全性における未解決な問題
[論文紹介] 機械学習システムの安全性における未解決な問題[論文紹介] 機械学習システムの安全性における未解決な問題
[論文紹介] 機械学習システムの安全性における未解決な問題tmtm otm
 

Mais procurados (20)

[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded Imagination[DL輪読会]Generative Models of Visually Grounded Imagination
[DL輪読会]Generative Models of Visually Grounded Imagination
 
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
 
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
NLPソリューション開発の最前線
NLPソリューション開発の最前線NLPソリューション開発の最前線
NLPソリューション開発の最前線
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
[論文紹介] 機械学習システムの安全性における未解決な問題
[論文紹介] 機械学習システムの安全性における未解決な問題[論文紹介] 機械学習システムの安全性における未解決な問題
[論文紹介] 機械学習システムの安全性における未解決な問題
 

Semelhante a MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedbackharmonylab
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirataharmonylab
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...harmonylab
 
Solving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Modelsharmonylab
 
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...harmonylab
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Textharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agentharmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Searchharmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...harmonylab
 
Inspiration through Observation: Demonstrating the Influence of Automatically...
Inspiration through Observation: Demonstrating the Influence of Automatically...Inspiration through Observation: Demonstrating the Influence of Automatically...
Inspiration through Observation: Demonstrating the Influence of Automatically...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
 
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料harmonylab
 

Semelhante a MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers (20)

Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
Solving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Models
 
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
Inspiration through Observation: Demonstrating the Influence of Automatically...
Inspiration through Observation: Demonstrating the Influence of Automatically...Inspiration through Observation: Demonstrating the Influence of Automatically...
Inspiration through Observation: Demonstrating the Influence of Automatically...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
 

Mais de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 

Mais de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 

Último

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 

Último (10)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 修士1年 花野愛里咲
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 著者 – Krishna Pillutla,Swabha Swayamdipta,Rowan Zellers,John Thickstun,Sean Welleck,Yejin Choi,Zaid Harchaoui • 発表 – NeurIPS(2021) • 論文URL – https://arxiv.org/pdf/2102.01454.pdf • コード – https://github.com/krishnap25/mauve 論文情報 2
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • オープンエンドテキスト生成のための 評価指標MAUVEの提案 • モデルによるテキストの分布と人間が書いた テキストの分布の近さをKL divergenceを 用いて定量化 • 既存の評価指標よりも人間による評価との 相関が確認された 概要 3
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 大規模テキスト生成モデルは高品質・一貫性を 持つ人間のようなテキストの生成が可能 • モデルが生成したテキストと人間の言語の近さ を測定することは依然として未解決 • 人間が書いたテキストの分布とモデルによる テキスト分布のギャップの測定を目的とする 背景 4
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 人間のテキスト分布とモデルによるテキスト 分布のギャップは2種類のエラーから生じる – タイプ1エラー:生成モデルが人間が書きそうも ないテキストを生成する – タイプ2エラー:生成モデルが人間が書きそうな テキストを生成できない • これらをKL divergenceを用いて定式化 提案手法 5
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • モデルによるテキスト分布Qと人間による テキスト分布Pの混合分布𝑅𝜆をとる • MAUVEは𝜆を(0, 1)で動かして得られた ダイバージェンス曲線下の面積 • MAUVEの値が大きいほどQはPに近いことを示す 提案手法 6 𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄 𝜆 ∈ (0, 1) 横軸:タイプ1エラー 縦軸:タイプ2エラー 𝑐:スケーリングのための ハイパーパラメータ
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 問題点 – 人間のテキスト分布が未知 – 典型的なモデル分布では次元が高すぎる • 推定手順 1. 人間のテキストとモデルのテキストをサンプリング 2. 言語モデルを用いて各テキスト列の埋め込みベクトル を得る(GPT-2を使用) 3. 埋め込まれたサンプルを量子化(k-means法を使用) • ベクトル量子化:データ集合をk個のクラスタに分割し, 各クラスタをk個の代表ベクトルで近似 4. 各クラスタ内のデータ数をカウントしてヒストグラム を形成 • 高次元のテキスト分布を低次元の離散分布に 変換 提案手法 7
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 関連研究 8 • 他の評価指標の問題点 – 2つのエラーを考慮していない – ダイバージェンス曲線上のある1点しか考慮していない オープンエンドテキスト生成のための自動評価指標
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • タスク – 与えられたテキストの続きを生成 • ドメイン:ウェブテキスト,ニュース,物語 • モデル – ウェブテキストデータセットで事前学習したGPT-2 • デコーディングアルゴリズム – ancestral sampling:言語モデルのステップごとの分布 から直接サンプリング – greedy decoding:次の単語として最も確率の高い単語 を選択 – nucleus sampling:確率の合計がpを超えるような最小の 個数の候補を動的に決定 実験設定 9
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. 生成されたテキスト長,デコーディングアル ゴリズム,モデルサイズの違いによる特性を どのように定量化するのか 2. 埋め込みモデル,量子化アルゴリズム, ハイパーパラメータの違いによらずロバスト であるか 3. 人間の判断と相関があるか 実験 10
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 実験1-1 • 生成されたテキストの長さによる質の違いを 定量化できるか – 生成するテキストの長さが長いほど質が悪化する[1] • 比較指標の中でMAUVEだけがテキストの長さが 長いほど質が低下することを捉えている – モデルサイズによらず一貫した傾向あり [1] H. Rashkin, A. Celikyilmaz, Y. Choi, and J. Gao. PlotTMachines: Outline-Conditioned Generation with Dynamic Plot State Tracking. arXiv Preprint, 2020.
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 実験1-2 • デコーディングアルゴリズムによる質の違いを 捉えられるか – Greedy sampling < Ancestral sampling < Nucleus sampling の順にテキストの質が高い[2][3][4][5] • MAUVEはデコーディングアルゴリズムの特徴を 捉えることができている [2] A. Holtzman, J. Buys, M. Forbes, and Y. Choi. The Curious Case of Neural Text Degeneration. In Proc. of ICLR, 2020. [3] S. Welleck, I. Kulikov, S. Roller, E. Dinan, K. Cho, and J. Weston. Neural Text Generation With Unlikelihood Training. In Proc. of ICLR, 2020. [4] S. Welleck, I. Kulikov, J. Kim, R. Y. Pang, and K. Cho. Consistency of a Recurrent Language Model With Respect to Incomplete Decoding. In Proc. of EMNLP, pages 5553–5568, 2020. [5] A. Fan, M. Lewis, and Y. N. Dauphin. Hierarchical Neural Story Generation. In Proc. of ACL, pages 889–898, 2018.
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 実験1-3 • モデルサイズによる質の違いを捉えられるか – モデルサイズは大きいほどテキストの質が高い[6][7] • MAUVEはモデルサイズの特徴を捉えることが できている [6] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever. Language Models are Unsupervised Multitask Learners. OpenAI blog, 1(8):9, 2019. [7] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language Models are Few-Shot Learners. In Proc. of NeurIPS, 2020.
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 異なる埋め込みモデルでも同じ傾向を示すか – RoBERTa largeとGPT-2 largeを比較 実験2-1 14 • 異なる埋め込みモデルでもMAUVEは以下の既知の 特性を示した – モデルサイズが大きいほどテキストの質が高い – Greedy sampling < Ancestral sampling < Nucleus sampling の順にテキストの質が高い
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 異なる量子化アルゴリズムを用いてもロバストで あるか – K-means法,Deep Residual Mixture Models(DRMM), 格子量子化を比較 • K=100から5000までの K-means法で計算された MAUVEはデフォルトのK=500のときとほぼ完全 に相関する(相関係数は0.99または1.00) • DRMMまたは格子量子化で計算されたMAUVEは K-means法とほぼ完全な相関を持つ(相関係数は 0.99以上) 実験2-2 15
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • スケーリングパラメータcの値によらず ロバストであるか 実験2-3 16 𝐶 𝑃, 𝑄 = {(exp −𝑐𝐾𝐿 𝑄 𝑅𝜆 , exp −𝑐𝐾𝐿 𝑃 𝑅𝜆 𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0, 1)} • cの値はダイバージェンス曲線の相対的な順序 には影響を与えない
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 人間の判断と相関があるか – 評価者は与えられた文章に続く文章を5段階の リッカート尺度でペアから1つを選択 • Human-like:どちらの文章が人間が書いた可能性が高いか • Interesting:どちらの文章がより面白いか • Sensible:どちらの文章が論理的に正しいか 実験3 17 GPT-2のモデル サイズ4種類 • small • medium • large • xl デコーディング アルゴリズム2種類 • pure sampling • nucleus sampling 人間が書いた テキスト(継続文) × + • 文章は9種類あるためペアは36組 – 各組に対して90のアノテーションを取得
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 1対1の比較からランキングに変換するために Bradley-Terryモデルを使用 実験3 19 • Bradley-Terryスコアと各評価指標の相関係数 を算出 Bradley-Terryスコア (Bradley-Terryスコアは値が大きいほど評価者からの選好が強いことを示す)
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 人間の判断と相関があるか – 「human-like」「interesting」「sensible」の3つ の指標を評価 • MAUVEは他の評価指標よりも人間の評価との 相関が大幅に高い 実験3 20
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • モデルのテキストと人間のテキストを識別する 分類器の精度との相関 – 分類器の精度が低いほど生成されたテキストは 人間のテキストとの識別が難しい • 使用する分類モデル – ニュース生成:Grover mega – 物語生成:GPT-2 実験3 21 • MAUVEは他の比較指標よりも識別精度との相関 が最も高い
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • モデルによるテキストと人間のテキストの ギャップを測る自動評価指標MAUVEを提案 • MAUVEはテキストの生成長,デコーディング アルゴリズム,モデルサイズの違いを捉え, 人間の判断と相関することが確認された • 今後の展望:翻訳や要約などのクローズド エンドなタスクへの拡張 まとめ 22