最大熵模型¶
1 最大熵思想¶
- 最大熵模型指出,在预测一个样本或者一个事件的概率分布时,首先应当满足所有的约束条件,进而对未知的情况不做任何的主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。最大熵原理就是在满足已知条件的概率模型集合中,找到熵最大的模型。
- 假设随机变量有个取值,如果约束条件为。在没有其他任何信息的情况下要估计各个值的概率时,我们只能估计为等概率,即。且这种判断是合理的。若我们除此之外还有了其他约束条件时,如:,那么我们可以认为与等概率,、、是等概率的。
2 最大熵模型的定义¶
-
已知数据集, 其中表示维输入特征,代表一共存在个分类
-
定义一个输出值为1、0的特征函数:
-
定义条件概率分布上的条件熵为:
-
形式定义
3 最大熵模型求解¶
-
拉格朗日乘子
-
对偶问题
-
归一化
- 最终结果
- 得出了和的关系,从而可以把对偶函数里面的所有的替换成用表示,这样对偶函数就是全部用表示了。接着我们对求极大化,就可以得到极大化时对应的w向量的取值,带入和的关系式, 从而也可以得到的最终结果。
这是一个典型的凸优化问题。
4 最大熵模型与逻辑回归¶
-
特征函数 其中是当是抽取的的特征,可以每一个维度都有一个特征
-
逻辑回归是最大熵模型的特殊情况