习题¶
Ex 3.1¶
-
题目:
-
证明:
-
首先证明
-
假设:设有个变量是约束为0
-
对模型有
-
设矩阵, 有
-
则最小化可以表述为
-
使用拉格朗日乘子法
-
求解可得
-
对有
-
对有
-
因此有
-
则
-
-
由于,有(是列向量,且, 其他全是0)
-
因此有
Ex 3.3¶
-
题目:
-
第一问
- 首先证明
-
的方差可以表示为
-
的方差可以表示为
-
则
-
第二问
Ex 3.4¶
-
题目:
-
知识:
-
分解:将矩阵分解为正交矩阵和上三角矩阵的乘积,事实上就是施密特正交化的过程
-
求解:
-
首先进行分解
-
因此,等价于
-
由于是上三角矩阵,所以很容易求解
-
, 可得
-
若已经求出, 则有
-
Ex 3.5¶
-
题目:
-
证明
-
对ridge
-
对于是中心化的情况
-
设是维,每一行都是中心化后的矩阵
-
上式可以写作
-
求导得
-
联立可得
-
由式 , 可得
-
由式 , 可得
-
而对于是未中心化的情况(即书中3.41情况)
-
由式 , 可得
-
由式 , 可得
-
由此可见
-
-
对lasso
-
可以写作
-
求导得
-
联立二式
-
由式 , 可得
-
由式 , 可得
-
而对于是未中心化的情况
-
由式 , 可得
-
由式 , 可得
-
由此, 并发现形式一致,可得
-
Ex 3.6¶
-
题目:
-
解:
-
假设这里的都经过中心化,也是经过了使用后,进行中心化的
-
由后验概率公式,可得
-
取对数可得
-
可以看到
-
且岭回归估计是后验分布的众数、或者均值
这是因为高斯分布共轭分布仍然是高斯分布,众数和中位数均相等
Ex 3.8¶
-
题目:
-
求解:
-
第一问:均张成列空间
-
根据Thin-SVD可得,是列空间的正交基
-
由QR分解得
-
由于
-
因此有
-
由此可见,和都是列空间的正交基,均张成的列空间
-
-
第二问:什么条件下和相等
-
由SVD
-
若, 则
-
因此 是正交阵,且是对角元素不为0的上三角阵,则必定是对角阵
证明:对角元素不为0的上三角阵,若正交,则必定是对角阵
- 记
- 由, 可以得到的第一行是0
- 由, 可以得到的第二行是0
-
以此类推,是对角阵
-
因此得出 列向量正交
-
Ex 3.9¶
- 题目:
-
解:
-
定义
- 记的第列为
- 记的第列为
- 记为
-
求解:
-
因为可以进行分解
-
当新加入变量
-
因此
-
计算残差可以得到
-
因此只需要最小化
-
可得
-
Ex 3.10¶
- 题目:
-
解:
-
先去掉gleason,因为他的显著性水平最低
- 然后重新计算Z score,不断循环
Ex 3.11¶
-
题目:
-
第一问:
-
解法1:
- 的公式可以转化为非加权的情况
- 然后根据原来非加权求解公式
- 可得
-
解法2:
-
公式可以看作
-
求微分
-
可以得出导数为
-
-
第二问(TODO):
-
定义:
-
矩阵向量化运算符
-
是交换矩阵,将按列优先的向量化变为按行优先的向量化,例如 且有
-
是积
-
-
对公式进行变换得到
-
求微分
-
可得
-
由于是行满秩,而列不满秩,且列秩和行秩均为为,因此的秩也为
-
因此,有个线性无关的非0解,则解空间可以表示为(是解空间基向量)
-
因此有
-
因此可以得出结论,的最优解有多个
Ex 3.13¶
- 题目
-
第一问
-
第二问
-
根据公式,有
Ex 3.14¶
-
题目:
-
证明:
-
时
-
根据算法有
-
因此,预测为
-
可见,其最小二乘解就是的情况
-
-
时
- 根据, 有
-
时
-
若使得即有
-
则当, 有
-
根据数学归纳,因此有
-
Ex 3.20¶
-
题目:
-
假设:假设 和 均被中心化
-
前置知识:
-
若是(半)正定矩阵,则他存在唯一的平方根使得, 且对称并且(半)正定
-
第一问:
-
由典型相关分析可知,其求解的是最大化相关系数
-
因为如果分子分母增大相同的倍数,优化目标结果不变
- 若增大倍,增大倍,则分子增大倍,分母也增大倍
- 因此可以限制分母
-
因此问题可以变为
-
第二问(方法1 SVD)
-
对于约束, 可以得到
-
记, 因此问题变为
-
对进行SVD分解得到
-
因为是的线性组合,是的线性组合(因为两者都构成空间的正交基),因此有
-
因为,所以
-
因此可以转化为优化问题
-
因此,当取最大奇异值的行(第一行)为1,其他为0,取最大奇异值的列(第一列)为1,其他为0,该式子达到最大
-
此时是最大奇异值对应的左奇异向量,最大奇异值对应的左奇异向量,并且有
-
第三问(方法1)
-
由于当时,新的线性组合必须和之前的正交,即
-
因此也和之前求得的正交
-
因此之前选过的地方必须是0,所以第个就应该是第大奇异值对应的左右奇异向量
-
第二问(方法2 拉格朗日乘子法)
-
对问题进行拉格朗日乘子法得到
-
求导得
-
因此有
-
根据导数,并记, 有
-
记, 也就是有
-
也有因此有
-
根据奇异值分解的推导(具体见奇异值分解, 和分别都是的右奇异向量和左奇异向量,而就是其对应的奇异值,由于同时也是最优化目标,所以取最大奇异值对应的奇异向量即可
-
第三问(方法2)
-
根据上面的推导,当时,也和之前求得的正交
- 由于是最优化目标, 而因为正交,所以当时,和就应该取第二大奇异值对应的奇异向量
Ex 3.21¶
-
题目:
-
求解
-
的公式为
-
因为, 所以其正定并且可以得出其平方根, 化简公式得到
-
则只需要求
-
引理:若有, , 且, 则有 其中,是的第大奇异值,是其对应的左右奇异向量
-
证明:
-
因为, 则只有个非0的奇异值,记为 其中只有对角元有值,设其有且只有前个对角元非0
-
对目标函数进行微分,得到
-
由此得到取极值点的必要条件
-
根据上式,可以推出
-
可以推出,是特征向量, 的的特征向量,同时根据奇异值分解的定义,分别是左右奇异向量,是的奇异值,即(这里只要是不同的奇异值即可,还未说明是最大的个奇异值) 此时又可以推出, 因此得到相互等价,且都是目标函数极值点的必要条件。
-
此时
-
此时求得的值为
-
因此,当取最大的个奇异值, 目标函数在所有满足必要条件的里面达到最小, 且值是最小的个奇异值平方之和。而必要条件中最小的值一定是全局最小值,证毕。
-
-
根据引理,有
-
继续可以推出
Ex 3.22¶
-
题目:
-
求解:
-
将新采样带入在上一题中,有
Ex 3.23¶
- 题目
-
思考:我认为协方差和方差应该都按照N-1去取才符合Person 相关系数的定义。但是题干里面很多都用的N就比较迷惑,思考了一下是不是因为这个题都是对中心化和标准化后的X来说的(此时均值和方差均已知),并不是对中心化X前来说。
-
这里的题意中说到了均值0,标准差1,也就是这两个值是已知的无需估计的,就可以使用总体Person相关系数
-
如果题意并没有提到X均值方差,而是使用了中心化,就应该是样本Person 相关系数
-
求解
-
第一问
-
由最小二乘可知
-
化简题目中的式子可得
-
因此有结论,随着逼近,与残差相关系数绝对值保持不变(是标准化前的)
-
-
第二问(这里指的是Person 相关系数)
- 由第一问继续推导
-
第三问
-
初始满足,活跃集与r相关系数相同,均为
-
因为前进方向是最小二乘方向
-
由第一问,所以相关系数保持(keep tieds)
-
由第二问,相关系数慢慢减小0(monotonically decreasing)
-
Ex 3.24¶
-
题目:
-
解:
-
这里指的是相关性相同(相关系数绝对值一致)
-
由于和r相关性相等,即有
-
因此有()
Ex 3.25¶
- 题干
-
求解:
-
在书中,变量活跃集为, 更新方向为
-
因此下一个选择的变量满足
-
化简得到
-
若大于0,则有
-
否则
-
示意图如下:
- 蓝色的线是
- 红色的线是
- 蓝色的截距一定小于红色线,也就是初始时,活跃集变量和残差的相关性最大
- 这是由LAR过程进行数学归纳得出
- LAR第一步找相关性最大,满足蓝色的截距一定小于红色线截距
- 若LAR第k步满足蓝色的截距一定小于红色线截距,而LAR是找最小时相关系数相等的变量,由于相关性是连续的,找到后其他变量相关系数肯定更小,因此新的k+1步仍然满足蓝色的截距一定小于红色线截距,即活跃集变量和残差的相关性最大
- 由于蓝色的截距一定小于红色线,且因为函数连续性,通过示意图可以看出,找中和变量最小的交点,等价于找与的交点
-
因此有,最后答案为, 其中含义为只计算在区间的最小值,含义为只计算正值最小值