跳转至

运用派生输入方向的方法

1 概述

  • 在很多情形下我们有很多输入,这些输入的相关性经常是非常强的。这一小节中的方法产生较少的原输入变量的线性组合, 然后用代替来作为回归的输入。

2 主成分回归

  • 的Thin-SVG为

  • 使用主成分方向构造输入列, 然后在上回归

  • 由于之间相互正交,所以回归是单变量回归的和

  • 由于是输入变量的线性组合,所以有,且当时,其就是(见习题 Ex 3.13),

  • 容易证明

  • , 就会回到通常的最小二乘估计,这是因为张成了的列空间

  • , 得到一个降维的回归问题,主成分回归与岭回归非常相似:都是通过输入矩阵的主成分来操作的

    • 图中显示了对应的收缩和截断模式作为主成分指标的函数

    1617386155140

    • 岭回归对主成分系数进行了收缩,收缩更多地依赖对应特征值的大小

    • 主成分回归丢掉个最小的特征分量,进行了截断操作

  • 尺度不变(scale invariant)

  • 主成分回归不是尺度不变的,主成分依赖输入 的放缩尺度,所以一般地我们首先对它们进行标准化。

  • 这是因为,若干某个的列(特征)经过放缩后,其主成分方向可能产生改变,从而使得主成分选择不同。

  • 主成分方向的数学表述

  • 个主成分方向是下面问题的解

  • 证明:

    • 个主成分方向的求解方法是的第大特征值对应的进行了特征子空间正交的特征向量(特征子空间正交化之后,就一定有所有特征向量正交,这是因为对称阵不同特征值的特征向量一定正交造成的)

    • 对于的第大特征值对应的经过正交化的特征向量,因此与前面特征向量正交,所以也就有了

    • 因为, 所以有

    • 对于一个如果与正交,因此其一定可以表示成,因此

    • 所以当的时候,以上不等式等号成立,方差达到最大

3 偏最小二乘(PLS)

  • 概念:构造了一系列用于回归的输入变量的线性组合,但是与主成分回归不同的是它同时采用来构造

  • 尺度不变

  • 也不是尺度不变的,因此假设经过标准化,使得均值是0,方差是1

  • 算法流程

1617727514023

  • 首先标准化, 使其方差为1,均值为0,并且设置初始拟合变量, 初始预测变量

  • , 重复做

    • 计算, 其中衡量了单变量 对响应变量影响强度,用来加权

    • 使得上回归,得到系数

    • 关于进行正交化, 得到

    • 在这种方式下,偏最小二乘得到一系列派生的、正交化的输入或者方向

      证明:

      • 假设正交,因为线性组合,所以进行正交化后得到的均正交
      • 由数学归纳,最后得到的均正交的
    • 最后,得到回归预测变量

    • 因为的线性组合

    这是由数学归纳得到的:

    • 第一步:的线性组合,的线性组合,所以也是的线性组合
    • 假设线性组合,则有, 所以也是线性组合,而的线性组合,所以也是的线性组合

    所以,中的可以通过一系列变化从中复原

  • PLS方向的数学表述

  • 个 PLS 方向 是下面的解

  • 由于方差项趋向于占主导地位,因此偏最小二乘表现得很像岭回归和主成分回归

  • 证明(见习题Ex 3.15 TODO)

  • 如果输入矩阵 是正交的,则偏最小二乘会经过 步找到最小二乘估计,后续过程不起作用,即,证明见习题 Ex 3.14

  • 可以证明时的 PLS 系数序列表示计算最小二乘解时的共轭梯度(见习题Ex 3.18 TODO)