SlideShare a Scribd company logo
1 of 93
最大熵模型 与 自然语言处理 MaxEnt Model & NLP   laputa [email_address] NLP Group, AI Lab, Tsinghua Univ.
Topics ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
NLP 与随机过程 ,[object Object],[object Object],[object Object],已知: x 1 x 2 …x n 求: y 1 已知: x 1 x 2 …x n  y 1 求: y 2 已知: x 1 x 2 …x n  y 1  y 2 求: y 3 已知: x 1 x 2 …x n  y 1  y 2  y 3 求: y 4 …
NLP 与随机过程 ,[object Object],[object Object],x 1 x 2 …x n p(y 1 =a|x 1 x 2 …x n ) x 1 x 2 …x n  y 1 p(y 2 =a|x 1 x 2 …x n  y 1 ) x 1 x 2 …x n  y 1  y 2 p(y 3 =a|x 1 x 2 …x n  y 1  y 2 ) x 1 x 2 …x n  y 1  y 2  y 3 p(y 4 =a|x 1 x 2 …x n  y 1  y 2  y 3 ) …
NLP 与随机过程 ,[object Object],[object Object],[object Object],x 1 x 2 …x n p(y 1 =a|x 1 x 2 …x n ) x 1 x 2 …x n  y 1 p(y 2 =a|x 1 x 2 …x n  y 1 ) x 1 x 2 …x n  y 1  y 2 p(y 3 =a|x 1 x 2 …x n  y 1  y 2 ) x 1 x 2 …x n  y 1  y 2  y 3 p(y 4 =a|x 1 x 2 …x n  y 1  y 2  y 3 ) …
NLP 与随机过程 ,[object Object],[object Object],[object Object],一个直观的解决: ,[object Object],[object Object]
What’s Entropy? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
称硬币 (cont.) ,[object Object],[object Object],[object Object]
称硬币 (cont.) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
称硬币 (cont.) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
称硬币 (cont.) ,[object Object],[object Object],[object Object]
称硬币 (cont.) ,[object Object],[object Object],[object Object],[object Object]
称硬币 (cont.) ,[object Object],[object Object],[object Object]
称硬币 -Version.2 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
称硬币 -Version.2 ,[object Object]
称硬币 -Version.2 ,[object Object]
称硬币 -Version.2 ,[object Object]
称硬币 -Version.2 ,[object Object],用反证法可以证明,这个是最小值。 (假设第一个和第二个硬币中有一个要称两次的话……)
称硬币 -Version.2 ,[object Object]
称硬币 -Version.3,4,…∞ ,[object Object],一般地,我们令 c 为 2 (二进制表示),于是, X 的信息量为:
What’s Entropy? ,[object Object],[object Object]
熵的性质 ,[object Object],[object Object]
熵的性质 ,[object Object]
熵的性质 ,[object Object],[object Object],[object Object],[object Object]
Conditional Entropy ,[object Object]
Conditional Entropy ,[object Object],[object Object],[object Object]
已知与未知的关系 ,[object Object],[object Object],[object Object]
已知与未知的关系—例子 ,[object Object],[object Object],[object Object],[object Object],如果仅仅知道这一点,根据无偏见原则,“学习”被标为名词的概率与它被标为动词的概率相等。
已知与未知的关系—例子 ,[object Object],[object Object],[object Object],除此之外,仍然坚持无偏见原则: 我们引入这个新的知识:
已知与未知的关系—例子 ,[object Object],[object Object],[object Object],[object Object],除此之外,仍然坚持无偏见原则,我们尽量使概率分布平均。 但问题是:什么是尽量平均的分布? 引入这个新的知识:
最大熵模型 Maximum Entropy ,[object Object],[object Object],[object Object]
最大熵模型 Maximum Entropy
最大熵模型 Maximum Entropy What is Constraints? -- 模型要与 已知 知识吻合 What is known? -- 训练数据集合 一般模型: P={p|p 是 X 上满足 条件 的概率分布 }
特征 (Feature) ,[object Object],[object Object],[object Object],[object Object],x 1 x 2 …x n p(y 1 =a|x 1 x 2 …x n ) x 1 x 2 …x n  y 1 p(y 2 =a|x 1 x 2 …x n  y 1 )
样本 (Sample) ,[object Object],[object Object],[object Object],[object Object],[object Object]
特征与样本 已知: “ 学习”可能是动词,也可能是名词。可以被标为主语、谓语、宾语、定语…… “ 学习”被标为定语的可能性很小,只有 0.05 特征:当“学习”被标作动词的时候,它被标作谓语的概率为 0.95 x 是什么 ?  y 是什么 ? 样本是什么 ?
特征与样本 已知: “ 学习”可能是动词,也可能是名词。可以被标为主语、谓语、宾语、定语…… 特征:“学习”被标为定语的可能性很小,只有 0.05 当“学习”被标作动词的时候,它被标作谓语的概率为 0.95 x 是什么 ?  y 是什么 ? 样本是什么 ?
特征与样本 特征函数:对于一个特征 (x 0 ,y 0 ) ,定义特征函数: 特征函数期望值: 对于一个特征 (x 0 ,y 0 )  ,在样本中的期望值是: 是 (x,y) 在样本中出现的概率
条件( Constraints ) 条件: 对每一个特征 (x,y) ,模型所建立的条件概率分布要与训练样本表现出来的分布相同。 假设样本的分布是(已知): 特征 f 在模型中的期望值:
最大熵模型 Maximum Entropy ,[object Object],P={p|p 是 y|x 的概率分布并且满足下面的条件 } 对训练样本,对任意给定的特征 f i :
最大熵模型 Maximum Entropy ,[object Object]
最大熵模型的解决 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
非线性规划基本概念 Nonlinear Programming ,[object Object],[object Object],[object Object],[object Object],[object Object]
非线性规划基本概念 Nonlinear Programming ,[object Object],[object Object],如何去掉约束?抽象问题: 假设: A 的行向量线性无关。 确定了 m 维空间里面 n 个方向上(就是与 Ap=b 确定的 m-n 个方向“垂直”的 n 个方向)的取值。 p 只能在剩下的 r=m-n 个方向上面移动。
非线性规划基本概念 Nonlinear Programming ,[object Object],[object Object],[object Object],[object Object],[object Object]
非线性规划基本概念 Nonlinear Programming ,[object Object],[object Object],如何去掉约束?抽象问题: Z: m*(m-n) 常数矩阵 v: m-n 维变量
极值条件 Z: m*(m-n) 常数矩阵 v: m-n 维变量 极值条件: 把  分解成 Z 方向向量和 A 方向向量:
极值条件 Z: m*(m-n) 常数矩阵 v: m-n 维变量
极值条件 ,[object Object],[object Object],令: 假设: A 的行向量线性无关。
拉格朗日算子 Lagrange Multiplier ,[object Object],[object Object],[object Object]
拉格朗日算子 Lagrange Multiplier
拉格朗日函数
可能的最优解( Exponential )
最优解的存在性 ,[object Object],[object Object],[object Object]
最优解形式( Exponential )
最优解( Exponential )
最优解( Exponential ) ,[object Object],[object Object],[object Object],[object Object]
对偶问题 Duality ,[object Object],[object Object]
对偶问题  Alice vs Bob ,[object Object],[object Object],[object Object],[object Object],[object Object],双方都很聪明:双方都对对方有“最坏打算”
对偶问题  Alice vs Bob ,[object Object],[object Object]
Alice vs Bob Version.2 ,[object Object],[object Object]
对偶问题  Alice vs Bob ,[object Object],[object Object],[object Object],定理:当存在马鞍点( Saddle Point )的时候,等号成立。并且结果 = 马鞍点的值。 马鞍点:
非线性规划中的对偶问题 拉格朗日函数: 于是: 因此,为了尽量大, p 的选取必须保证 考虑:
对偶问题与拉格朗日函数: 同时: 等价于: 而
对偶问题与拉格朗日函数:
梯度递减法 把 p* 代入 L ,得到:  令:
梯度递减法 求导,计算 -L 的梯度:
梯度递减法 递推公式: 收敛问题……
最大似然率  Maximum Likelihood ,[object Object],[object Object],[object Object],[object Object],[object Object]
最大似然率  Maximum Likelihood ,[object Object],[object Object],[object Object]
最大似然率  Maximum Likelihood ,[object Object],[object Object]
最大似然率  Maximum Likelihood ,[object Object],[object Object],是常数,可以忽略
最大似然率  Maximum Likelihood ,[object Object],[object Object],[object Object]
最大似然率  ,[object Object]
最大似然率
最大似然率  Maximum Likelihood ,[object Object]
偶然?必然? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
特征选取问题 ,[object Object],[object Object],[object Object],[object Object],[object Object]
特征选取问题 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
特征选取算法 ,[object Object],[object Object],[object Object],[object Object],[object Object]
算法步骤 ,[object Object],[object Object],[object Object],[object Object],[object Object]
敏感度分析与特征提取 Sensitivity ,[object Object],[object Object]
应用实例 ,[object Object],[object Object],[object Object]
应用实例 ,[object Object],[object Object],[object Object],[object Object],[object Object]
应用实例 ,[object Object]
应用实例 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
应用实例 ,[object Object],[object Object],[object Object],[object Object]
应用实例 ,[object Object],[object Object],[object Object]
相关项目 ,[object Object],[object Object],[object Object],[object Object]
总结与启发 ,[object Object],[object Object],[object Object],[object Object],“ All Models are wrong.  Some are useful.”
参考文献 ,[object Object],[object Object],[object Object],[object Object]
参考文献  (Cont) ,[object Object],[object Object],[object Object],[object Object],[object Object]
Q&A ? Thank you!

More Related Content

Viewers also liked (7)

Bamboo
BambooBamboo
Bamboo
 
自然语言处理 中文分词程序实验报告%28含源代码%29
自然语言处理 中文分词程序实验报告%28含源代码%29自然语言处理 中文分词程序实验报告%28含源代码%29
自然语言处理 中文分词程序实验报告%28含源代码%29
 
意得辑资源_手稿准备_如何写出好的题目、摘要与选择适当的关键词
意得辑资源_手稿准备_如何写出好的题目、摘要与选择适当的关键词 意得辑资源_手稿准备_如何写出好的题目、摘要与选择适当的关键词
意得辑资源_手稿准备_如何写出好的题目、摘要与选择适当的关键词
 
Webinar: OpenNLP and Solr for Superior Relevance
Webinar: OpenNLP and Solr for Superior RelevanceWebinar: OpenNLP and Solr for Superior Relevance
Webinar: OpenNLP and Solr for Superior Relevance
 
Presentation of OpenNLP
Presentation of OpenNLPPresentation of OpenNLP
Presentation of OpenNLP
 
OpenNLP demo
OpenNLP demoOpenNLP demo
OpenNLP demo
 
Lda
LdaLda
Lda
 

Similar to 最大熵模型 (8)

Probability, statistics & machine learning(china soft tokyo)
Probability, statistics & machine learning(china soft tokyo)Probability, statistics & machine learning(china soft tokyo)
Probability, statistics & machine learning(china soft tokyo)
 
Chapter01
Chapter01Chapter01
Chapter01
 
向量分析 Cauchy-schwarz不等式之本質與意義-林琦焜
向量分析 Cauchy-schwarz不等式之本質與意義-林琦焜向量分析 Cauchy-schwarz不等式之本質與意義-林琦焜
向量分析 Cauchy-schwarz不等式之本質與意義-林琦焜
 
3 3數學歸納法
3 3數學歸納法3 3數學歸納法
3 3數學歸納法
 
Hierarchical Network of Concepts
Hierarchical Network of ConceptsHierarchical Network of Concepts
Hierarchical Network of Concepts
 
應用統計學期末報告
應用統計學期末報告應用統計學期末報告
應用統計學期末報告
 
高等生產管理 第一組
高等生產管理 第一組高等生產管理 第一組
高等生產管理 第一組
 
对偶分解与拉格朗日松弛在自然语言处理推理的应用导论
对偶分解与拉格朗日松弛在自然语言处理推理的应用导论对偶分解与拉格朗日松弛在自然语言处理推理的应用导论
对偶分解与拉格朗日松弛在自然语言处理推理的应用导论
 

最大熵模型