投影寻踪回归¶
1 概念¶
- 投影寻踪(Projection Pursuit,简称PP)是处理分析高维数据的一种方法。通过极值化选定的投影指标,寻找最能反映数据特征的投影方向,将高维数据投影到低维空间,进行分析。
2 投影指标¶
2.1 一维投影指标¶
- 公式
-
其中是投影值的标准差,反应类间距离(:部分投影值极端的点被从求和中忽略)
-
是在投影方向下,投影值的局部密度,反映类内距离
是严格递减函数,且当时为, 例如
-
若类间距离越大,类内距离越小,则表示投影效果越好
- 还有方差投影指标等
2.2 二维投影指标¶
- 公式
3 回归方法¶
3.1 传统方法¶
- 解决了传统间隔方法(PCA等)的不足。其是通过极值化选定的投影指标,寻找最能反映数据特征的投影方向,将高维数据投影到低维空间,进行分析。
3.2 PPR步骤¶
-
对于个观测样本, 对按照进行投影, 得到, 对于进行回归得到岭函数
-
其中岭函数的拟合是确定的数学形式以及参数的过程,使用非参数回归的方法,目标是使得投影寻踪指标最大化。例如
-
若小于人为设定的阈值为止,停止迭代
-
另残差作为新的,并且选取新的方向,重新执行步骤1
3.3 PPR公式¶
- 从步骤可见,投影映射回归可以得到若干个岭函数的和