模型选择和偏差-方差的权衡¶
1 泛化¶
模型都有一个 光滑 (smoothing) 或 复杂性 (complexity) 参数需要确定
-
例如:在光滑样条的情形下,多项式模型从 窗宽 (window size) 无限大时阶为 mm 的全局多项式到 窗宽 (window size) 至零时的插值拟合模型。这意味着我们不能用训练数据的残差平方和来确定这些参数,因为我们总是选择插值拟合,因为能达到零残差。然而插值拟合的一个模型不可能用来预测未来的数据,它并不不具有泛化能力。
-
例如:近邻回归的拟合值
-
假设数据来自,并且假设样本里面都是提前确定的(为了简化)。则在的误差可以进行偏差-方差分解
-
是不可约减的 (irreducible) 误差
-
第二项和第三项在我们的控制范围内,并且构成了估计 时 的 均方误差 (mean squared error),他被分解为偏差和方差部分
- 偏差项的期望平均了训练数据中的随机量,如果真实的函数相当地光滑,这一项很可能随着 的增加而增加。因为越大,邻域越远,偏差就可能越大。
- 方差项则随着变大,越来越小
- 因此当变换时,有了偏差-误差的权衡 (bias-variance tradeoff)
-
更一般的,随着我们过程的 模型复杂度 (model complexity) 增加,方差趋于上升,偏差趋于下降,反之以然。对于近邻,模型复杂度由控制。
-
一般,我们选择模型复杂度使偏差与方差达到均衡从而使测试误差最小。测试误差的一个明显的估计是 训练误差 (training error),但是训练误差不是测试误差的良好估计。
-
过拟合现象
无论何时增加模型复杂度,训练误差都趋于下降.然而过度的拟合,模型会自适应使得更加接近训练数据,但不能很好地进行泛化。
-
欠拟合现象:如果模型不是特别的复杂,会 欠拟合 (underfit) 且有较大的偏差,也导致不能很好地泛化