跳转至

投影寻踪回归

1 概念

  • 投影寻踪(Projection Pursuit,简称PP)是处理分析高维数据的一种方法。通过极值化选定的投影指标,寻找最能反映数据特征的投影方向,将高维数据投影到低维空间,进行分析。

2 投影指标

2.1 一维投影指标

  • 公式
  • 其中是投影值的标准差,反应类间距离(:部分投影值极端的点被从求和中忽略)

  • 是在投影方向下,投影值的局部密度,反映类内距离

    是严格递减函数,且当时为, 例如

  • 若类间距离越大,类内距离越小,则表示投影效果越好

  • 还有方差投影指标等

2.2 二维投影指标

  • 公式

3 回归方法

3.1 传统方法

  • 解决了传统间隔方法(PCA等)的不足。其是通过极值化选定的投影指标,寻找最能反映数据特征的投影方向,将高维数据投影到低维空间,进行分析。

3.2 PPR步骤

  • 对于个观测样本, 对按照进行投影, 得到, 对于进行回归得到岭函数

  • 其中岭函数的拟合是确定的数学形式以及参数的过程,使用非参数回归的方法,目标是使得投影寻踪指标最大化。例如

  • 小于人为设定的阈值为止,停止迭代

  • 另残差作为新的,并且选取新的方向,重新执行步骤1

3.3 PPR公式

  • 从步骤可见,投影映射回归可以得到若干个岭函数的和