统计判别理论¶
1 预测值为连续值¶
1.1 平方误差损失¶
-
公式
-
预测平方误差的期望
-
公式
-
则只需要EPE逐点最小
-
k-近邻
-
联合概率分布 温和正则条件下,可以证明当 使得 时,
-
当维数 p 变大,k-最近邻的度量大小也随之变大.所以最近邻代替条件会让我们非常失望
-
线性模型
-
设X,Y服从某个分布, 推到得出 如下
-
-
最小二乘法相当于把期望换成了样本的均值,也就是假设了分布和样本相同
-
1.2 绝对值误差损失¶
-
公式
-
一定有
-
TODO: 证明:假设下届为a,否则为无穷积分不好证明。
-
它的估计比条件均值更加鲁棒
2 贝叶斯分类¶
2.1 损失函数¶
-
公式
-
求解
-
只需要逐点最小
-
如果为 0-1 损失函数,则为贝叶斯分类 (Bayes classifier)
-
贝叶斯阶 (Bayes rate):贝叶斯分类的误差阶
-
$$ \hat G(x)=\mathop{\arg\min}_{g\in G} \sum_{k=1}^KL(G_k,g)Pr(G_k|X=x) \\ =\mathop{\arg\min}_{g\in G} \sum_{G_k\not= g}L(G_k,g)Pr(G_k|X=x) \\=\mathop{\arg\min}_{g\in G}(1- Pr(g|X)) \\ = \mathop{\arg\max}_{g\in G} Pr(g|X) $$
-
-
k-最近邻分类直接近似这个解决方法——在最近邻内占绝大多数恰好意味着这个
- 某一点的条件概率松弛为该点的邻域内的条件概率
- 概率是通过训练样本的比例来估计的.
2.2 贝叶斯分类求解¶
-
问题:我们从双变量高斯分布 中产生 10 个均值 ,标记此类为蓝色.类似地,从双变量高斯分布 中产生 10 个均值并标记此类为橘黄色.然后对每一类按照下面方式产生 100 个观测:对于每个观测,我们以 的概率随机选择一个 ,然后产生 ,因此对于每一类引出了一个高斯分布簇的混合.
-
求解(这个有错误):
-
根据条件概念
-
其中
-
则有
-
其中
-
由此可以求得的数值解,最终可以比较和 ,从而可以确定区域
-
因为
-
此时可以比较来计算边界(TODO: 这里积分好积吗?好积分就可以直接做商了)
-
-
求解(修正)
-
上面求解,其实是对每个观测,都按照生成一个, 其实看题意,这100个观测对应的都是相同的, 也就是其实是固定的已知的。
-
因此需要把上面的公式改成即可,变得简单许多