SlideShare uma empresa Scribd logo
1 de 23
http://deeplearning.jp/
HyperTree Proof Search for Neural Theorem Proving
塚本 慧
DEEP LEARNING JP
[DL Papers]
1
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
HyperTree Proof Search for Neural Theorem Proving
https://arxiv.org/pdf/2205.11491.pdf
タイト
ル:
著者: Guillaume Lample, Marie-Anne Lachaux, Thibaur Lavril, Xavier Martinet, Amaury Hayat,
Gabriel Ebner, Aurelien Rodrigue
• トランスフォーマーに基づいた自動定理証明のためのオンライン学習のモデルの提案。
• モンテカルロ木探索を導入。
• miniF2Fの問題の正答率を大幅に改善
概要:
2
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アジェンダ
1. イントロダクション
1. 前提知識・関連研究
1. 証明の環境
1. HyperTree Proof Search
1. 証明探索でのオンライン学習
1. 実験
1. 結果
1. 結論
3
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. イントロダクション
イントロダクション
4
• これまで数学の証明の検証は人間の手で行われてきたが、数学の証明の複雑さが増している現在においては
不十分になってきている。数学を形式化することによってコンピュータに検証させようとする動きがある。
• 形式的な数学はプログラミング言語で書かれたソースコードに近く、伝統的な数学とはかけ離れている
ため、使うのが難しい。
• 既に証明されている定理を形式化するのにも膨大な労力がいる。
数学の形式化
素数が無限個あることの証明
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. イントロダクション
5
• 本研究では与えられた定理を人間の支援抜きでタクティックの列を生成して証明する。
• この研究により既に証明されている数学の形式化にかかる労力を大幅に削減できる。
• 証明をハイパーツリーとみなすことでモンテカルロ木探索を導入する。(後述)
イントロダクション
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 前提知識・関連研究
6
lean and_commutative
証明プログラミング言語
編集 仮定とゴールの表示
解きたい命題
タクティック
(使っていい補題)
• まだ検証されていない命題をゴールとし、タクティックによってゴールと仮定を変形したり分割する。
• ゴールに何も表示されない時に証明されたということになる
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 前提知識・関連研究
7
ゴールの分割
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 前提知識・関連研究
8
ニューラル定理証明
• 深層学習の手法を定理証明に適用されている
自動定理証明は人工知能における長年の難問として知られている。近年の大規模言語モデルや、
モデルによる探索手法の成功に伴い自動定理証明への関心が再び高まっている。
言語モデルの推論能力
• 大規模トランスフォーマーの推論能力に注目が集まっている
モンテカルロ木探索と二人用ゲーム
• AlphaZeroのような二人用ゲームでの探索と同様に、定理証明は既に証明されている定理や補題、テクニック
を用いて探索しているとみなせる
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 証明の環境
証明の環境(使う証明プログラミング言語とそのライブラ
リ)
• Metamath, Lean, Equationsの三種類の環境で実験を行った(Equationsは本研究で新しく作った環境)
仮定とゴール(木構造の
ノードと呼ぶ)
タクティック
9
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. HyperTree Proof Search
10
証明は木構造であるとみなせる
証明の仮定とゴールは木構造のノード
タクティックは木構造の枝
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. HyperTree Proof Search
11
HyperTree Proof Search
• 次に取るべきタクティックを探索と知識利用のバランスを取りながら選択する
選択
展開
• 葉ノードを訪れた回数が閾値以上となった場合に、そのノードから先を展開する
更新
• 得られた報酬を記録し、期待報酬を更新する
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. HyperTree Proof Search
選択
• タクティックごとに計算を行う
• 報酬の総和をWとする(ここでの報酬は証明可能性を表している(解ける = 1, 解けない = 0))
• 訪問回数をNとする
• 評価値をQ=W/Nとする
探索のアルゴリズムはPUCTとRegularized Policyの両方を試す
選択
12
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. HyperTree Proof Search
展開
• 言語モデルを用いてタクティックを文章として生成
• 評価値の高いノードを優先して展開(証明においてタクティック
を実行)
展開
13
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. HyperTree Proof Search
更新
• 子ノードの評価値を元にノードの評価値を更新
• ゴールが分割されていて子ノードが複数ある時
子ノードの評価値の総積でノードの評価値を更新
(評価値は0~1で証明可能性を表す、また子ノード同士の独立性を仮定)
更新
14
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. 証明探索でのオンライン学習
15
学習の対象
• タクティックのモデル
ゴールを入力としてタクティックを出力する(言語モデルと同じ)
• クリティックのモデル
ノードの評価値(証明可能性)を予測
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. 証明探索でのオンライン学習
16
オンライン学習
非同期で分散学習を行う
• タクティックのサンプル
ゴールとタクティックのペアを抽出して訓練データとして使う
• クリティックのサンプル
探索が終わった後のすべてのノードの評価値を訓練データとして使う
探索の途中で正しいことが証明されたノードの評価値は1
探索の途中で間違いであることが証明されたノードの評価値は0
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. 証明探索でのオンライン学習
17
訓練の全容
• 事前学習 (数学に関する文章を大量に学習)
• ファインチューニング(学習の環境に合わせた証明プログラミング言語(Metamath, Lean, Equations)の学習)
• オンライン学習(HyperTree Proof Search)
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
6. 実験
18
モデルのファインチューニングとラベル付きのデータセット
• MetaMath
set.mmライブラリから37091個の証明を抽出
• Lean
Mathlibライブラリから24kの証明と、144kのゴールとタクティックのペアを抽出
• Equations
• 本研究のために自作で作った環境なのでライブラリがないためランダムにタクティックを実行し定理を
生成した
モデルの事前学習
• 数学に関するarxivの論文のLatexのソースコード(60億トークン)を
マスク付きのSeq2Seqのモデルで学習
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
6. 実験
19
モデルのアーキテクチャと訓練
• 12層のエンコーダと6層のデコーダを持つトランスフォーマーのアーキテクチャを使用
• エンコーダの埋め込み次元は1600, デコーダは1024(Equationsのときのみデコーダは512)
• Equationsのときのパラメータ数は440M, MetaMathとLeanは600M
ファインチューニング
• 最適化アルゴリズムはAdam
• 逆平方根学習率スケジューリングを用いる
• ドロップアウト率は0.2
• レイヤードロップアウト率は0.1
• Pytorchを用い学習を高速化するためにfloat16を使用
オンライン学習
• Warmupのあとは学習率を3×10-5
• 48 V100 GPUで16つの訓練機と32つの証明機を用い
た
• Warmupのあとは学習率を3×10-5
• 48 V100 GPUで16つの訓練機と32つの証明機を用い
た
• Warmupのあとは学習率を3×10-5
• 48 V100 GPUで16つの訓練機と32つの証明機を用い
た
• Warmupのあとは学習率を3×10-5
• 48 V100 GPUで16つの訓練機と32つの証明機を用い
た
• Warmupのあとは学習率を3×10-5
• 48 V100 GPUで16つの訓練機と32つの証明機を用い
た
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
7. 結果
20
主要な結果(モンテカルロ木探索を実行した回数は定理ごとに64)
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
7. 結果
21
Lean
1日の訓練でminiF2F-curriculumの327の問題を110問解く(GPT-fは100問)
7日の訓練で137問解く
オンライン学習中の正答率は58.6%
テスト用のデータセットでは41%(GPT-fは36.6%)
オンライン学習により正答率を61%から82.6%に向上
MetaMath
Equations
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
7. 結論
まとめ
22
• AlphaZeroから生まれた自動定理証明のための証明探索アルゴリズムを紹介した
• 複数の証明の環境で最高の結果を出した
• 数学の形式化のデータが限られているため、探索で新しいデータを増やす方法が必要になる
• 新しい定理を生成できるかも将来の課題になりそう
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
Leanのチュートリアル
https://leanprover.github.io/theorem_proving_in_lean/
Leanの素数に関するライブラリ
https://github.com/leanprover-community/mathlib/blob/master/src/data/nat/prime.lean#L418
23

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
[DL輪読会]Hindsight Experience Replay
[DL輪読会]Hindsight Experience Replay[DL輪読会]Hindsight Experience Replay
[DL輪読会]Hindsight Experience Replay
 
20190619 オートエンコーダーと異常検知入門
20190619 オートエンコーダーと異常検知入門20190619 オートエンコーダーと異常検知入門
20190619 オートエンコーダーと異常検知入門
 
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 

Semelhante a 【DL輪読会】HyperTree Proof Search for Neural Theorem Proving

ICST 2015 まるわかりDay! "Test Selection and Prioritization Track"
ICST 2015 まるわかりDay! "Test Selection and Prioritization Track"ICST 2015 まるわかりDay! "Test Selection and Prioritization Track"
ICST 2015 まるわかりDay! "Test Selection and Prioritization Track"
SIGSTJ
 

Semelhante a 【DL輪読会】HyperTree Proof Search for Neural Theorem Proving (11)

ipsjifat201909
ipsjifat201909ipsjifat201909
ipsjifat201909
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
Inspection of CloudML Hyper Parameter Tuning
Inspection of CloudML Hyper Parameter TuningInspection of CloudML Hyper Parameter Tuning
Inspection of CloudML Hyper Parameter Tuning
 
ICST 2015 まるわかりDay! "Test Selection and Prioritization Track"
ICST 2015 まるわかりDay! "Test Selection and Prioritization Track"ICST 2015 まるわかりDay! "Test Selection and Prioritization Track"
ICST 2015 まるわかりDay! "Test Selection and Prioritization Track"
 
Rainbow
RainbowRainbow
Rainbow
 
IPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へIPAB2017 深層学習を使った新薬の探索から創造へ
IPAB2017 深層学習を使った新薬の探索から創造へ
 
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
 
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
ACL2018 Paper Survey: Learning to Ask Good Questions: Ranking Clarification Q...
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"
CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"
CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"
 

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Último

Último (10)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

【DL輪読会】HyperTree Proof Search for Neural Theorem Proving

  • 1. http://deeplearning.jp/ HyperTree Proof Search for Neural Theorem Proving 塚本 慧 DEEP LEARNING JP [DL Papers] 1
  • 2. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 書誌情報 HyperTree Proof Search for Neural Theorem Proving https://arxiv.org/pdf/2205.11491.pdf タイト ル: 著者: Guillaume Lample, Marie-Anne Lachaux, Thibaur Lavril, Xavier Martinet, Amaury Hayat, Gabriel Ebner, Aurelien Rodrigue • トランスフォーマーに基づいた自動定理証明のためのオンライン学習のモデルの提案。 • モンテカルロ木探索を導入。 • miniF2Fの問題の正答率を大幅に改善 概要: 2
  • 3. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アジェンダ 1. イントロダクション 1. 前提知識・関連研究 1. 証明の環境 1. HyperTree Proof Search 1. 証明探索でのオンライン学習 1. 実験 1. 結果 1. 結論 3
  • 4. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. イントロダクション イントロダクション 4 • これまで数学の証明の検証は人間の手で行われてきたが、数学の証明の複雑さが増している現在においては 不十分になってきている。数学を形式化することによってコンピュータに検証させようとする動きがある。 • 形式的な数学はプログラミング言語で書かれたソースコードに近く、伝統的な数学とはかけ離れている ため、使うのが難しい。 • 既に証明されている定理を形式化するのにも膨大な労力がいる。 数学の形式化 素数が無限個あることの証明
  • 5. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. イントロダクション 5 • 本研究では与えられた定理を人間の支援抜きでタクティックの列を生成して証明する。 • この研究により既に証明されている数学の形式化にかかる労力を大幅に削減できる。 • 証明をハイパーツリーとみなすことでモンテカルロ木探索を導入する。(後述) イントロダクション
  • 6. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 前提知識・関連研究 6 lean and_commutative 証明プログラミング言語 編集 仮定とゴールの表示 解きたい命題 タクティック (使っていい補題) • まだ検証されていない命題をゴールとし、タクティックによってゴールと仮定を変形したり分割する。 • ゴールに何も表示されない時に証明されたということになる
  • 7. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 前提知識・関連研究 7 ゴールの分割
  • 8. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 前提知識・関連研究 8 ニューラル定理証明 • 深層学習の手法を定理証明に適用されている 自動定理証明は人工知能における長年の難問として知られている。近年の大規模言語モデルや、 モデルによる探索手法の成功に伴い自動定理証明への関心が再び高まっている。 言語モデルの推論能力 • 大規模トランスフォーマーの推論能力に注目が集まっている モンテカルロ木探索と二人用ゲーム • AlphaZeroのような二人用ゲームでの探索と同様に、定理証明は既に証明されている定理や補題、テクニック を用いて探索しているとみなせる
  • 9. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 証明の環境 証明の環境(使う証明プログラミング言語とそのライブラ リ) • Metamath, Lean, Equationsの三種類の環境で実験を行った(Equationsは本研究で新しく作った環境) 仮定とゴール(木構造の ノードと呼ぶ) タクティック 9
  • 10. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. HyperTree Proof Search 10 証明は木構造であるとみなせる 証明の仮定とゴールは木構造のノード タクティックは木構造の枝
  • 11. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. HyperTree Proof Search 11 HyperTree Proof Search • 次に取るべきタクティックを探索と知識利用のバランスを取りながら選択する 選択 展開 • 葉ノードを訪れた回数が閾値以上となった場合に、そのノードから先を展開する 更新 • 得られた報酬を記録し、期待報酬を更新する
  • 12. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. HyperTree Proof Search 選択 • タクティックごとに計算を行う • 報酬の総和をWとする(ここでの報酬は証明可能性を表している(解ける = 1, 解けない = 0)) • 訪問回数をNとする • 評価値をQ=W/Nとする 探索のアルゴリズムはPUCTとRegularized Policyの両方を試す 選択 12
  • 13. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. HyperTree Proof Search 展開 • 言語モデルを用いてタクティックを文章として生成 • 評価値の高いノードを優先して展開(証明においてタクティック を実行) 展開 13
  • 14. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. HyperTree Proof Search 更新 • 子ノードの評価値を元にノードの評価値を更新 • ゴールが分割されていて子ノードが複数ある時 子ノードの評価値の総積でノードの評価値を更新 (評価値は0~1で証明可能性を表す、また子ノード同士の独立性を仮定) 更新 14
  • 15. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. 証明探索でのオンライン学習 15 学習の対象 • タクティックのモデル ゴールを入力としてタクティックを出力する(言語モデルと同じ) • クリティックのモデル ノードの評価値(証明可能性)を予測
  • 16. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. 証明探索でのオンライン学習 16 オンライン学習 非同期で分散学習を行う • タクティックのサンプル ゴールとタクティックのペアを抽出して訓練データとして使う • クリティックのサンプル 探索が終わった後のすべてのノードの評価値を訓練データとして使う 探索の途中で正しいことが証明されたノードの評価値は1 探索の途中で間違いであることが証明されたノードの評価値は0
  • 17. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. 証明探索でのオンライン学習 17 訓練の全容 • 事前学習 (数学に関する文章を大量に学習) • ファインチューニング(学習の環境に合わせた証明プログラミング言語(Metamath, Lean, Equations)の学習) • オンライン学習(HyperTree Proof Search)
  • 18. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6. 実験 18 モデルのファインチューニングとラベル付きのデータセット • MetaMath set.mmライブラリから37091個の証明を抽出 • Lean Mathlibライブラリから24kの証明と、144kのゴールとタクティックのペアを抽出 • Equations • 本研究のために自作で作った環境なのでライブラリがないためランダムにタクティックを実行し定理を 生成した モデルの事前学習 • 数学に関するarxivの論文のLatexのソースコード(60億トークン)を マスク付きのSeq2Seqのモデルで学習
  • 19. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6. 実験 19 モデルのアーキテクチャと訓練 • 12層のエンコーダと6層のデコーダを持つトランスフォーマーのアーキテクチャを使用 • エンコーダの埋め込み次元は1600, デコーダは1024(Equationsのときのみデコーダは512) • Equationsのときのパラメータ数は440M, MetaMathとLeanは600M ファインチューニング • 最適化アルゴリズムはAdam • 逆平方根学習率スケジューリングを用いる • ドロップアウト率は0.2 • レイヤードロップアウト率は0.1 • Pytorchを用い学習を高速化するためにfloat16を使用 オンライン学習 • Warmupのあとは学習率を3×10-5 • 48 V100 GPUで16つの訓練機と32つの証明機を用い た • Warmupのあとは学習率を3×10-5 • 48 V100 GPUで16つの訓練機と32つの証明機を用い た • Warmupのあとは学習率を3×10-5 • 48 V100 GPUで16つの訓練機と32つの証明機を用い た • Warmupのあとは学習率を3×10-5 • 48 V100 GPUで16つの訓練機と32つの証明機を用い た • Warmupのあとは学習率を3×10-5 • 48 V100 GPUで16つの訓練機と32つの証明機を用い た
  • 20. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7. 結果 20 主要な結果(モンテカルロ木探索を実行した回数は定理ごとに64)
  • 21. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7. 結果 21 Lean 1日の訓練でminiF2F-curriculumの327の問題を110問解く(GPT-fは100問) 7日の訓練で137問解く オンライン学習中の正答率は58.6% テスト用のデータセットでは41%(GPT-fは36.6%) オンライン学習により正答率を61%から82.6%に向上 MetaMath Equations
  • 22. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7. 結論 まとめ 22 • AlphaZeroから生まれた自動定理証明のための証明探索アルゴリズムを紹介した • 複数の証明の環境で最高の結果を出した • 数学の形式化のデータが限られているため、探索で新しいデータを増やす方法が必要になる • 新しい定理を生成できるかも将来の課題になりそう
  • 23. Copyright (C) Present Square Co., Ltd. All Rights Reserved. Appendix 参考文献 Leanのチュートリアル https://leanprover.github.io/theorem_proving_in_lean/ Leanの素数に関するライブラリ https://github.com/leanprover-community/mathlib/blob/master/src/data/nat/prime.lean#L418 23