跳转至

相关系数与(协)方差

1 样本方差

  • 公式

  • 分母为什么是而不是

  • 对于正态分布的情况,可以从自由度角度理解,可以通过正交变换为个独立服从正态分布的变量,而正交变换并不会改变其分布。正交变换之后,服从自由度为的卡方分布,因此的无偏分布

  • 对于其他情况,也需要证明其是无偏分布

    • 首先看期望

    $$ (1)\E(\tilde S^2)=E(\frac{1}{N}\sum_{i=1}^N(x_i-\bar x)^2) \ = E(\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2-2(\bar x-\mu)(x_i-\mu)+(\bar x-\mu)^2) \ = E(\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2-\frac{2}{N}(\bar x-\mu)\sum_{i=1}^N(x_i-\mu)+(\bar x-\mu)^2) \ = E(\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2-2(\bar x-\mu)(\bar x-\mu)+(\bar x-\mu)^2) \ = E(\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2-(\bar x-\mu)^2) \ = \sigma^2 -E((\bar x-\mu)^2) \ = \sigma^2 -E((\bar x-E(\bar x))^2) \ = \sigma^2 -Var(\bar x) \ = \sigma^2 -\frac{\sigma^2}{N} \ = \frac{N-1}{N}\sigma^2 \ (2) \ E(\tilde S^2)=E(\frac{1}{N}\sum_{i=1}^N(x_i-\bar x)^2)

    \ =E(\frac{1}{N}\sum_{i=1}^N( x_i^2-2x_i\bar x+\bar x^2)) \ =E(\frac{1}{N}(\sum_{i=1}^N x_i^2-2\sum_{i=1}^Nx_i\bar x+\sum_{i=1}^N\bar x^2))) \ =E(\frac{1}{N}(\sum_{i=1}^N x_i^2-2N\bar x^2+N\bar x^2))) \ =E(\frac{\sum_{i=1}^N x_i^2}{N}-\bar x^2) \ = \frac{NE(x^2)}{N}-E(\frac{\sum_{i=1} x_i}{N}\frac{\sum_{i=1} x_i}{N}) \ = E(x^2)-E(\sum_{i=1}^N \frac{x_i^2}{N^2})+E(\frac{\sum_{i=1}^N\sum_{j\neq i}^Nx_ix_j}{N^2}) \ = E(x^2)-\sum_{i=1}^N \frac{E(x_i^2)}{N^2}+\sum_{i=1}^N\sum_{j\neq i}^N\frac{E(x_ix_j)}{N^2} \ = E(x^2)-\sum_{i=1}^N \frac{E(x^2)}{N^2}+\frac{N(N-1)}{N^2}E(x)^2 \ \because 观测独立,x_i 和 x_j 相互独立 \ = \frac{N-1}{N}(E(x^2)-E(x)^2) \ = \frac{N-1}{N} \sigma^2 $$

    • 因此

2 样本协方差

  • 公式

  • 分母为什么是而不是

  • 首先看期望 $$ E(\tilde S_{xy})=\frac{1}{N}E(\sum_{i=1}^N(x_i-\bar x)(y_i-\bar y))

    \ =E(\frac{1}{N}\sum_{i=1}^N( x_iy_i-x_i\bar y-y_i\bar x+\bar x\bar y)) \ =E(\frac{1}{N}(\sum_{i=1}^N x_iy_i-\sum_{i=1}^Nx_i\bar y-\sum_{i=1}^Ny_i\bar x+\sum_{i=1}^N\bar x\bar y))) \ =E(\frac{1}{N}(\sum_{i=1}^N x_iy_i-2N\bar x\bar y+N\bar x\bar y))) \ =E(\frac{\sum_{i=1}^N x_iy_i}{N}-\bar x\bar y) \ = \frac{NE(xy)}{N}-E(\frac{\sum_{i=1} x_i}{N}\frac{\sum_{i=1} y_i}{N}) \ = E(xy)-E(\sum_{i=1}^N \frac{x_iy_i}{N^2})+E(\frac{\sum_{i=1}^N\sum_{j\neq i}^Nx_iy_j}{N^2}) \ = E(xy)-\sum_{i=1}^N\frac{E(x_iy_i)}{N^2}+\sum_{i=1}^N\sum_{j\neq i}^N\frac{E(x_ix_j)}{N^2} \ = E(x^2)-\sum_{i=1}^N \frac{E(xy)}{N^2}+\frac{N(N-1)}{N^2}E(x)E(y) \ \because 观测独立,所以x_i和y_j独立 \ = \frac{N-1}{N}(E(xy)-E(x)E(y)) \ = \frac{N-1}{N} Cov(x,y) $$

  • 因此

3 皮尔逊积矩相关系数

  • 介绍:皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient)用于度量两个变量X和Y之间的相关程度

  • 总体相关系数:

  • 总体相关系数,常用希腊小写字母 ρ (rho) 作为代表符号

  • 公式:

  • 其他形式

  • 样本相关系数

  • 估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母 r 表示

  • 公式:

  • r可由样本点的标准分数均值估算

  • 其他形式

4 对预测变量的估计

  • 对于的样本协方差矩阵,

  • 这是因为

  • 也正符合协方差的公式

5 对响应变量的估计

5.1 响应变量为一维

  • 可以和普通变量一样估计,但是存在更自然的方法

  • 无偏估计方差方法为

  • 具体证明请参考 ESL-Note 的3.2节证明

5.2 多重输出的响应变量

  • 可以和普通变量一样估计,但是存在更自然的方法

  • 但是存在更自然的估计方式,假设有高斯-马尔可夫假设(Gauss-Markov):对于多重输出响应变量,(行之间)不相关,且 有固定的协方差矩阵, 且 是固定的(非随机)

  • 估计方法:

  • 对于多元的线性回归,有

  • 则无偏估计方法为

  • 证明(TODO 这里还没搞懂为啥):

  • 进行化简得到

  • 因此

  • 这里和前面单变量冲突啊,不是很懂为什么分母是, 但是习题 Ex 3.22是这样的