跳转至

高维问题的局部方法

1 高维度的一些问题

1.1 对于输入在 p 维单位超立方体均匀分布的最近邻过程

  • 假设邻域的体积对应单位体积的比例为r
  • 则边长的期望值。也就是说,对于每个变量输入为[0,1], 选取1%或者10%的数据去形成局部均值。
  • 这意味着必须在每个输入变量上覆盖到 63% 或者 80%.这样的邻域不再是局部的.显著地降低 r 并没有作用,因为我们选取去平均的观测值越少,拟合的方差也会越大.

1.2 最近邻距离的中位数

  • 问题:考虑在 p 维以原点为中心的单位球中均匀分布的 N 个数据点.假设我们考虑原点处的最近邻估计.距离原点最近的数据点距离的中位数

  • 求解:

  • 数据点与原点的距离看成随机变量X,因为数据点均匀分布,则 X 的分布函数正比于

  • 则次序统计量的分布满足

  • 解得

  • N=500,p=10的时候,,即大部分的数据点离样本空间的边界比其他任何的数据点更近.

1.3 取样密度

  • 取样密度是跟 成比例, 也就是说要达到同样取样密度,p维空间样本数目是单维的p次方倍
  • 因此在高维空间中所有可行的训练样本在输入空间中很稀少

2 方差偏差分析

2.1 方差-偏差分解

  • 泛化误差可分解为偏差、方差与噪声之和

  • 有噪声:对于数据集求期望

  • 假设:

    • 的真实标记
    • 在数据集中的标记
    • 假定噪声的期望为0
  • 根据定义

  • 假设噪声 线性无关(TODO: 质疑, 是否有相关性),其中最后一项为0

  • 从而继续有

  • 其中,最后一项仍为0,PS: 均为常数项

  • 则最后有

  • 无噪声

  • 根据定义

2.2 最近邻方差-偏差分析

  • 有这么一个数据集:假设从中均匀产生1000个样本, 假设没有测量错误,对于每个label ,关系为

  • 采用最近邻估计处的值,其中是采用最近邻模型下,数据集为D情况下预测的x的label

  • 根据函数图像,其偏差应该会<0, 而不是无偏估计

1608574654318

  • 低维度情况下,最近邻非常接近 0,于是偏差和方差都会非常小.

  • 当维数增大,最近邻有从目标点远离的趋势

  • 1608574841418

  • 偏差增长到1左右,因为p=10 时,超过 99% 的样本的最近邻距离原点大于 0.5,此时函数值为0
  • 方差则和函数斜率相关,先增长后下降

  • 方差占主导地位的情况:

  • 对于最近邻问题,若函数总是仅仅与少量的维度有关,方差便会占主要部分.

  • 1608616259643

2.3 最小二乘(线性)方差-偏差分析

  • 假设之间的关系为线性 其中

  • 使用最小二乘拟合模型

  • 根据最小二乘公式

  • 其中

  • EPE方差偏差分析

  • 分析

  • 全局, 并且假设

  • 可以看到 的期望作为 的函数线性增长,斜率 .如果 大或 小,方差的增长可以忽略

2.4 最近邻 VS 最小二乘

  • 两种情形下比较 1-最近邻和最小二乘法,两种情形下形式均为 和前面一样都是均匀分布的,而且

  • 1610462084275