跳转至

信息熵

1 信息量

2 信息熵

  • 信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望

  • 信息熵越大,变量包含的信息量越大,变量的不确定性也越大。

3 条件熵

  1. 定义:在给定的条件下,的条件概率分布的熵对的数学期望

  2. 理解条件熵可以使用决策树进行特征选择的例子:我们期望选择的特征要能将数据的标签尽可能分得比较“纯”一些,特征将数据的标签分得“纯”,则熵就小,信息增益就大

  3. 变形: 条件熵就是“被特征分割以后的信息熵的加权平均”。

4 联合熵

  1. 定义

5 互信息(信息增益)

  1. 定义:互信息(Mutual Information)是衡量随机变量之间相互依赖程度的度量。

  2. 关系

1610705476937

6 相对熵

  1. 相对熵又称 KL 散度,如果我们对于同一个随机变量有两个单独的概率分布, 使用 KL 散度来衡量这两个分布的差异。差异越大则相对熵越大,差异越小则相对熵越小。

  2. 计算公式:

7 交叉熵

  1. 定义:

  2. 相对熵和交叉熵的关系 如果散度前半部分是一个常量, 则交叉熵和DL散度等价。

  3. 交叉熵可以用作代价

模型目标是最小化模型分布和训练数据的差异,也就是最小化

训练数据的分布A是给定的。那么A固定不变,散度就等价求

  1. 交叉熵与极大似然估计

假设有一个真实分布为的随即变量,我们对它进行了N次独立同分布实验,对于每个可能的结果观察到的次数为, 那么他的似然值为: 这个式子有两个缺点,第一它是个负数,第二它的数值跟样本数有关,样本越多数值越大,因此除以一下总的样本数归一化,再取个相反数,然后改用频率表示 因此可以看出,交叉熵最小实质上就是似然值最大。

给定的情况下,使交叉熵最小的分布一定有, 使用拉格朗日乘子法 求偏导: 为比例,因为归一化条件,所以

  1. 逻辑回归与交叉熵