高维问题的局部方法¶
1 高维度的一些问题¶
1.1 对于输入在 p 维单位超立方体均匀分布的最近邻过程¶
- 假设邻域的体积对应单位体积的比例为r
- 则边长的期望值, ,。也就是说,对于每个变量输入为[0,1], 选取1%或者10%的数据去形成局部均值。
- 这意味着必须在每个输入变量上覆盖到 63% 或者 80%.这样的邻域不再是局部的.显著地降低 r 并没有作用,因为我们选取去平均的观测值越少,拟合的方差也会越大.
1.2 最近邻距离的中位数¶
-
问题:考虑在 p 维以原点为中心的单位球中均匀分布的 N 个数据点.假设我们考虑原点处的最近邻估计.距离原点最近的数据点距离的中位数:
-
求解:
-
数据点与原点的距离看成随机变量X,因为数据点均匀分布,则 X 的分布函数正比于
-
则次序统计量的分布满足
-
解得
-
N=500,p=10的时候,,即大部分的数据点离样本空间的边界比其他任何的数据点更近.
1.3 取样密度¶
- 取样密度是跟 成比例, 也就是说要达到同样取样密度,p维空间样本数目是单维的p次方倍
- 因此在高维空间中所有可行的训练样本在输入空间中很稀少
2 方差偏差分析¶
2.1 方差-偏差分解¶
-
泛化误差可分解为偏差、方差与噪声之和
-
有噪声:对于数据集求期望
-
假设:
- 为的真实标记
- 是在数据集中的标记
- 假定噪声的期望为0
-
根据定义
-
假设噪声和 线性无关(TODO: 质疑, 和 是否有相关性),其中最后一项为0
-
从而继续有
-
其中,最后一项仍为0,PS: 、均为常数项
-
则最后有
-
无噪声
-
根据定义
2.2 最近邻方差-偏差分析¶
- 有这么一个数据集:假设从中均匀产生1000个样本, 假设没有测量错误,对于每个label ,关系为
-
采用最近邻估计处的值,其中是采用最近邻模型下,数据集为D情况下预测的x的label
-
根据函数图像,其偏差应该会<0, 而不是无偏估计
-
低维度情况下,最近邻非常接近 0,于是偏差和方差都会非常小.
-
当维数增大,最近邻有从目标点远离的趋势
- 偏差增长到1左右,因为p=10 时,超过 99% 的样本的最近邻距离原点大于 0.5,此时函数值为0
-
方差则和函数斜率相关,先增长后下降
-
方差占主导地位的情况:
-
对于最近邻问题,若函数总是仅仅与少量的维度有关,方差便会占主要部分.
-
2.3 最小二乘(线性)方差-偏差分析¶
-
假设与之间的关系为线性 其中
-
使用最小二乘拟合模型
-
根据最小二乘公式
-
其中
-
EPE方差偏差分析
-
分析
-
全局, 并且假设
-
可以看到 的期望作为 的函数线性增长,斜率 .如果 大或 小,方差的增长可以忽略
2.4 最近邻 VS 最小二乘¶
-
两种情形下比较 1-最近邻和最小二乘法,两种情形下形式均为 , 和前面一样都是均匀分布的,而且