信息熵¶
1 信息量¶
2 信息熵¶
-
信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望
-
信息熵越大,变量包含的信息量越大,变量的不确定性也越大。
3 条件熵¶
-
定义:在给定的条件下,的条件概率分布的熵对的数学期望
-
理解条件熵可以使用决策树进行特征选择的例子:我们期望选择的特征要能将数据的标签尽可能分得比较“纯”一些,特征将数据的标签分得“纯”,则熵就小,信息增益就大
-
变形: 条件熵就是“被特征分割以后的信息熵的加权平均”。
4 联合熵¶
- 定义
5 互信息(信息增益)¶
-
定义:互信息(Mutual Information)是衡量随机变量之间相互依赖程度的度量。
-
关系
6 相对熵¶
-
相对熵又称 KL 散度,如果我们对于同一个随机变量有两个单独的概率分布和, 使用 KL 散度来衡量这两个分布的差异。差异越大则相对熵越大,差异越小则相对熵越小。
-
计算公式:
7 交叉熵¶
-
定义:
-
相对熵和交叉熵的关系 如果散度前半部分是一个常量, 则交叉熵和DL散度等价。
-
交叉熵可以用作代价
模型目标是最小化模型分布和训练数据的差异,也就是最小化
训练数据的分布A是给定的。那么A固定不变,散度就等价求
- 交叉熵与极大似然估计
假设有一个真实分布为的随即变量,我们对它进行了N次独立同分布实验,对于每个可能的结果观察到的次数为, 那么他的似然值为: 这个式子有两个缺点,第一它是个负数,第二它的数值跟样本数有关,样本越多数值越大,因此除以一下总的样本数归一化,再取个相反数,然后改用频率表示 因此可以看出,交叉熵最小实质上就是似然值最大。
给定的情况下,使交叉熵最小的分布一定有, 使用拉格朗日乘子法 对求偏导: 则与为比例,因为归一化条件,所以
- 逻辑回归与交叉熵