跳转至

统计判别理论

1 预测值为连续值

1.1 平方误差损失

  • 公式

  • 预测平方误差的期望

  • 公式

  • 则只需要EPE逐点最小

  • k-近邻

  • 联合概率分布 温和正则条件下,可以证明当 使得 时,

  • 当维数 p 变大,k-最近邻的度量大小也随之变大.所以最近邻代替条件会让我们非常失望

  • 线性模型

  • 设X,Y服从某个分布, 推到得出 如下

  • 最小二乘法相当于把期望换成了样本的均值,也就是假设了分布和样本相同

1.2 绝对值误差损失

  • 公式

  • 一定有

  • TODO: 证明:假设下届为a,否则为无穷积分不好证明。

  • 它的估计比条件均值更加鲁棒

2 贝叶斯分类

2.1 损失函数

  • 公式

  • 求解

  • 只需要逐点最小

  • 如果为 0-1 损失函数,则为贝叶斯分类 (Bayes classifier)

    • 贝叶斯阶 (Bayes rate):贝叶斯分类的误差阶

    • $$
      \hat G(x)=\mathop{\arg\min}_{g\in G} \sum_{k=1}^KL(G_k,g)Pr(G_k|X=x)
      \\ =\mathop{\arg\min}_{g\in G} \sum_{G_k\not= g}L(G_k,g)Pr(G_k|X=x)
      \\=\mathop{\arg\min}_{g\in G}(1- Pr(g|X))
      \\ = \mathop{\arg\max}_{g\in G} Pr(g|X)
      $$
      
  • k-最近邻分类直接近似这个解决方法——在最近邻内占绝大多数恰好意味着这个

    • 某一点的条件概率松弛为该点的邻域内的条件概率
    • 概率是通过训练样本的比例来估计的.

2.2 贝叶斯分类求解

  • 问题:我们从双变量高斯分布 中产生 10 个均值 ,标记此类为蓝色.类似地,从双变量高斯分布 中产生 10 个均值并标记此类为橘黄色.然后对每一类按照下面方式产生 100 个观测:对于每个观测,我们以 的概率随机选择一个 ,然后产生 ,因此对于每一类引出了一个高斯分布簇的混合.

  • 求解(这个有错误):

  • 根据条件概念

  • 其中

  • 则有

  • 其中

  • 由此可以求得的数值解,最终可以比较 ,从而可以确定区域

    • 因为

    • 此时可以比较来计算边界(TODO: 这里积分好积吗?好积分就可以直接做商了)

    1608571213678

  • 求解(修正)

  • 上面求解,其实是对每个观测,都按照生成一个, 其实看题意,这100个观测对应的都是相同的, 也就是其实是固定的已知的。

  • 因此需要把上面的公式改成即可,变得简单许多