最大熵模型

最大熵模型与自然语言处理 MaxEnt Model & NLP laputa [email_address] NLP Group, AI Lab, Tsinghua Univ.

Topics ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

NLP 与随机过程 ,[object Object],[object Object],[object Object],已知： x 1 x 2 …x n 求： y 1 已知： x 1 x 2 …x n y 1 求： y 2 已知： x 1 x 2 …x n y 1 y 2 求： y 3 已知： x 1 x 2 …x n y 1 y 2 y 3 求： y 4 …

NLP 与随机过程 ,[object Object],[object Object],x 1 x 2 …x n p(y 1 =a|x 1 x 2 …x n ) x 1 x 2 …x n y 1 p(y 2 =a|x 1 x 2 …x n y 1 ) x 1 x 2 …x n y 1 y 2 p(y 3 =a|x 1 x 2 …x n y 1 y 2 ) x 1 x 2 …x n y 1 y 2 y 3 p(y 4 =a|x 1 x 2 …x n y 1 y 2 y 3 ) …

NLP 与随机过程 ,[object Object],[object Object],[object Object],x 1 x 2 …x n p(y 1 =a|x 1 x 2 …x n ) x 1 x 2 …x n y 1 p(y 2 =a|x 1 x 2 …x n y 1 ) x 1 x 2 …x n y 1 y 2 p(y 3 =a|x 1 x 2 …x n y 1 y 2 ) x 1 x 2 …x n y 1 y 2 y 3 p(y 4 =a|x 1 x 2 …x n y 1 y 2 y 3 ) …

NLP 与随机过程 ,[object Object],[object Object],[object Object],一个直观的解决： ,[object Object],[object Object]

What’s Entropy? ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

称硬币 (cont.) ,[object Object],[object Object],[object Object]

称硬币 (cont.) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

称硬币 (cont.) ,[object Object],[object Object],[object Object],[object Object]

称硬币 -Version.2 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

称硬币 -Version.2 ,[object Object]

称硬币 -Version.2 ,[object Object],用反证法可以证明，这个是最小值。（假设第一个和第二个硬币中有一个要称两次的话……）

称硬币 -Version.3,4,…∞ ,[object Object],一般地，我们令 c 为 2 （二进制表示），于是， X 的信息量为：

What’s Entropy? ,[object Object],[object Object]

熵的性质 ,[object Object],[object Object]

熵的性质 ,[object Object],[object Object],[object Object],[object Object]

Conditional Entropy ,[object Object]

Conditional Entropy ,[object Object],[object Object],[object Object]

已知与未知的关系 ,[object Object],[object Object],[object Object]

已知与未知的关系—例子 ,[object Object],[object Object],[object Object],[object Object],如果仅仅知道这一点，根据无偏见原则，“学习”被标为名词的概率与它被标为动词的概率相等。

已知与未知的关系—例子 ,[object Object],[object Object],[object Object],除此之外，仍然坚持无偏见原则：我们引入这个新的知识：

已知与未知的关系—例子 ,[object Object],[object Object],[object Object],[object Object],除此之外，仍然坚持无偏见原则，我们尽量使概率分布平均。但问题是：什么是尽量平均的分布？引入这个新的知识：

最大熵模型 Maximum Entropy ,[object Object],[object Object],[object Object]

最大熵模型 Maximum Entropy

最大熵模型 Maximum Entropy What is Constraints? -- 模型要与已知知识吻合 What is known? -- 训练数据集合一般模型： P={p|p 是 X 上满足条件的概率分布 }

特征 (Feature) ,[object Object],[object Object],[object Object],[object Object],x 1 x 2 …x n p(y 1 =a|x 1 x 2 …x n ) x 1 x 2 …x n y 1 p(y 2 =a|x 1 x 2 …x n y 1 )

样本 (Sample) ,[object Object],[object Object],[object Object],[object Object],[object Object]

特征与样本已知： “ 学习”可能是动词，也可能是名词。可以被标为主语、谓语、宾语、定语…… “ 学习”被标为定语的可能性很小，只有 0.05 特征：当“学习”被标作动词的时候，它被标作谓语的概率为 0.95 x 是什么 ? y 是什么 ? 样本是什么 ?

特征与样本已知： “ 学习”可能是动词，也可能是名词。可以被标为主语、谓语、宾语、定语…… 特征：“学习”被标为定语的可能性很小，只有 0.05 当“学习”被标作动词的时候，它被标作谓语的概率为 0.95 x 是什么 ? y 是什么 ? 样本是什么 ?

特征与样本特征函数：对于一个特征 (x 0 ,y 0 ) ，定义特征函数：特征函数期望值：对于一个特征 (x 0 ,y 0 ) ，在样本中的期望值是：是 (x,y) 在样本中出现的概率

条件（ Constraints ）条件：对每一个特征 (x,y) ，模型所建立的条件概率分布要与训练样本表现出来的分布相同。假设样本的分布是（已知）：特征 f 在模型中的期望值：

最大熵模型 Maximum Entropy ,[object Object],P={p|p 是 y|x 的概率分布并且满足下面的条件 } 对训练样本，对任意给定的特征 f i ：

最大熵模型 Maximum Entropy ,[object Object]

最大熵模型的解决 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

非线性规划基本概念 Nonlinear Programming ,[object Object],[object Object],[object Object],[object Object],[object Object]

非线性规划基本概念 Nonlinear Programming ,[object Object],[object Object],如何去掉约束？抽象问题：假设： A 的行向量线性无关。确定了 m 维空间里面 n 个方向上（就是与 Ap=b 确定的 m-n 个方向“垂直”的 n 个方向）的取值。 p 只能在剩下的 r=m-n 个方向上面移动。

非线性规划基本概念 Nonlinear Programming ,[object Object],[object Object],如何去掉约束？抽象问题： Z: m*(m-n) 常数矩阵 v: m-n 维变量

极值条件 Z: m*(m-n) 常数矩阵 v: m-n 维变量极值条件：把分解成 Z 方向向量和 A 方向向量：

极值条件 Z: m*(m-n) 常数矩阵 v: m-n 维变量

极值条件 ,[object Object],[object Object],令：假设： A 的行向量线性无关。

拉格朗日算子 Lagrange Multiplier ,[object Object],[object Object],[object Object]

拉格朗日算子 Lagrange Multiplier

可能的最优解（ Exponential ）

最优解的存在性 ,[object Object],[object Object],[object Object]

最优解形式（ Exponential ）

最优解（ Exponential ） ,[object Object],[object Object],[object Object],[object Object]

对偶问题 Duality ,[object Object],[object Object]

对偶问题　 Alice vs Bob ,[object Object],[object Object],[object Object],[object Object],[object Object],双方都很聪明：双方都对对方有“最坏打算”

对偶问题　 Alice vs Bob ,[object Object],[object Object]

Alice vs Bob Version.2 ,[object Object],[object Object]

对偶问题　 Alice vs Bob ,[object Object],[object Object],[object Object],定理：当存在马鞍点（ Saddle Point ）的时候，等号成立。并且结果 = 马鞍点的值。马鞍点：

非线性规划中的对偶问题拉格朗日函数：于是：因此，为了尽量大， p 的选取必须保证考虑：

对偶问题与拉格朗日函数：同时：等价于：而

对偶问题与拉格朗日函数：

梯度递减法把 p* 代入 L ，得到：令：

梯度递减法求导，计算 -L 的梯度：

梯度递减法递推公式：收敛问题……

最大似然率 Maximum Likelihood ,[object Object],[object Object],[object Object],[object Object],[object Object]

最大似然率 Maximum Likelihood ,[object Object],[object Object],[object Object]

最大似然率 Maximum Likelihood ,[object Object],[object Object]

最大似然率 Maximum Likelihood ,[object Object],[object Object],是常数，可以忽略

最大似然率 ,[object Object]

最大似然率 Maximum Likelihood ,[object Object]

偶然？必然？ ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

特征选取问题 ,[object Object],[object Object],[object Object],[object Object],[object Object]

特征选取问题 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

特征选取算法 ,[object Object],[object Object],[object Object],[object Object],[object Object]

算法步骤 ,[object Object],[object Object],[object Object],[object Object],[object Object]

敏感度分析与特征提取 Sensitivity ,[object Object],[object Object]

应用实例 ,[object Object],[object Object],[object Object]

应用实例 ,[object Object],[object Object],[object Object],[object Object],[object Object]

应用实例 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

应用实例 ,[object Object],[object Object],[object Object],[object Object]

相关项目 ,[object Object],[object Object],[object Object],[object Object]

总结与启发 ,[object Object],[object Object],[object Object],[object Object],“ All Models are wrong. Some are useful.”

参考文献 ,[object Object],[object Object],[object Object],[object Object]

参考文献 (Cont) ,[object Object],[object Object],[object Object],[object Object],[object Object]

最大熵模型

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (7)

Similar to 最大熵模型

Similar to 最大熵模型 (8)

最大熵模型