跳转至

正则化

1 正则化的一般形式

2 来源推导

2.1 基于约束条件的最优化

  1. 根据VC维分析,个数越多,VC维越大,模型越复杂。为了限制模型的复杂度,则应该限制的个数:

  2. 由于上面是np问题,所以使用L1或者L2范数近似 拉格朗日函数为

其中, 假设的最有解为, 则最小化拉格朗日函数,与原问题等价 这与相似

2.2 基于最大后验概率估计

2.2.1 L2正则化

  1. 在最大似然估计中,是假设权重是未知的参数,从而求得对数似然函数:

  2. 若我们对一无所知,假设, 则 , 即可得到一般代价函数

  3. 若我们假设的分布已知,我们可以使用最大后验概率估计

最大后验概率估计中,则将权重看作随机变量,也具有某种分布

这里是因为是先验概率,可以分析数据获得。也是可以通过分析数据获得。

  • 其他写法: 其中是先验概率,可以通过样本获得。等价。

  • 的先验分布为 可以看到,先验高斯分布下的效果等价于再代数函数增加了

  • 的先验分布为拉普拉斯分布 可以看到,先验高斯分布下的效果等价于再代数函数增加了

3 直观理解

3.1 保证导数值不要过大

  • 1614943308397

上图中,模型过于复杂是因为模型尝试去兼顾各个测试数据点, 导致模型函数如下图,处于一种动荡的状态, 每个点的到时在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。加入正则能抑制系数过大的问题。

3.2 梯度分析

  1. L2正则化

1614943319878

当达到最低点时,有, 此时达到最优解,也就相当于求 的极值点

  1. L1正则化

1614943330694

  • 将要朝着减小的方向沿着边界移动,直到到达顶点,得到最优解, 这也是正则化产生稀疏性的原因。

  • 考虑边延伸后的四边形

  • 稀疏性的另一种解释

1614943350595

紫色时原来的函数,蓝色是的函数,粉色是的函数,可以看到施加L1 时,只要正则项的系数 C 大于原先费用函数在 0 点处的导数的绝对值, 就会变成一个极小值点。当模型发生微小改变时,最优值仍然是,这表示了其稀疏性。

3.3 稀疏性的理论分析

  1. L2正则化的非稀疏性

最优解,且二节可导,则进行二阶泰勒展开有 , 设其最优解为 , 则:

由于对称,可以特征值分解为, 其中正交,且为的特征向量,则 其中为对角矩阵,对角线元素为的特征值,可以看到在特征向量为基的空间中,第个特征向量方向缩放得到的,若, 则受到正则化影响较小。若较大,且收缩到接近于0。因为, 则正则化不会产生稀疏性的效果。

  1. L1正则化的稀疏性 假设为对角阵,, 则

  2. , 则会使得最优解的某些元素是0,从而产生稀疏性

  3. 否则,会使得最优解便宜一个常数值

综上,L2正则化的效果是对原最优解的每个元素进行不同比例的放缩; L1 正则化则会使原最优解的元素产生不同量的偏移,并使某些元素为0,从而产生稀疏性。