跳转至

最大熵模型

1 最大熵思想

  1. 最大熵模型指出,在预测一个样本或者一个事件的概率分布时,首先应当满足所有的约束条件,进而对未知的情况不做任何的主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。最大熵原理就是在满足已知条件的概率模型集合中,找到熵最大的模型。
  2. 假设随机变量个取值,如果约束条件为。在没有其他任何信息的情况下要估计各个值的概率时,我们只能估计为等概率,即。且这种判断是合理的。若我们除此之外还有了其他约束条件时,如:,那么我们可以认为等概率,是等概率的。

2 最大熵模型的定义

  1. 已知数据集, 其中表示维输入特征,代表一共存在个分类

  2. 定义一个输出值为1、0的特征函数:

  3. 定义条件概率分布上的条件熵为:

  4. 形式定义

3 最大熵模型求解

  1. 拉格朗日乘子

  2. 对偶问题

  3. 归一化

  • 最终结果

  • 得出了的关系,从而可以把对偶函数里面的所有的替换成用表示,这样对偶函数就是全部用表示了。接着我们对求极大化,就可以得到极大化时对应的w向量的取值,带入的关系式, 从而也可以得到的最终结果。

这是一个典型的凸优化问题。

4 最大熵模型与逻辑回归

  1. 特征函数 其中是当是抽取的的特征,可以每一个维度都有一个特征

  2. 逻辑回归是最大熵模型的特殊情况