Skip to content

18.1 当p远大于N

原文 The Elements of Statistical Learning
翻译 szcf-weiya
发布 2017-03-14
更新 2023-11-30
状态 Done

这章中我们讨论特征的个数 $p$ 远大于观测的个数 $N$ 的预测问题,通常写成 $p >> N$.这样的问题变得越来越重要,特别是在基因和其他计算生物的领域中.我们将会看到这种情形下,高方差 (high variance)过拟合 (overfitting) 是主要的考虑对象.结果表明,经常选择简单、高正则化的方式.本章的第一部分关注分类和回归中的预测问题,而第二部分讨论特征选择和特征评估这些更基本的问题.

首先,图 18.1 总结了一个小型的仿真结果,展示了 $p >> N$ 时,“欠拟合更好 (less fitting is better)”的原则.对 $N=100$ 个样本中的每一个,我们生成 $p$ 个成对相关系数为 $0.2$ 的标准高斯特征 $X$.响应变量 $Y$ 根据下面线性模型产生,

其中 $\varepsilon$ 产生于标准高斯分布.对于每个数据集,系数 $\beta_j$ 也从标准高斯分布中产生.我们研究三种情形:$p=20,100,1000$.在每种情形下标准误差的选取 $\sigma$ 都使得信噪比 $\Var[\E(Y\mid X)]/\sigma^2$ 等于$2$.结果表明,单变量回归系数显著的个数分别为 9,33 和 331,这是在 100 次模拟中平均得到的.$p=1000$ 的情形是用来模拟高维数据,这些数据可能是基因数据或者蛋白质数据.

weiya 注:

注意 $z_{0.975} = 1.96 \approx 2$,则如果 $\vert\hat\beta_j/\widehat{se}_j\vert\ge 2$,则称回归系数显著,其中 $\hat\beta_j$ 为估计的(单变量)系数,$\widehat{se}_j$ 是它的标准误差估计.

图 18.1. 模拟实验的测试误差结果.显示了 3 个不同 $p$ 值(特征的数目)下,100 次模拟的相对测试误差的箱线图.相对误差是测试误差除以贝叶斯误差 $\sigma^2$.从左到右,显示了三个不同的正则化参数 $\lambda:0.001,100,1000$ 的岭回归的结果.拟合中的(平均)有效自由度在每张图的下面标出来了.

weiya 注:

基本重现图 18.1,除了 p = 20 能够完美重现,其余略有差异(详见 Issue 245

  • p = 100 中 $\lambda = 0.001$ 时的均方误差会非常大,适当调高,比如设为 1,则也能重现;
  • p = 1000 中不同 $\lambda$ 的差异似乎不大,信噪比较低时会有降低的趋势,但仍不会像上图分得那么开。

我们对数据进行岭回归拟合,其中采用了三个不同的正则参数 $\lambda:0.001,100,1000$.当 $\lambda=0.001$,这近似与最小二乘一样,仅仅有一点正则来保证当 $p > N$ 时,问题不是奇异的.图 18.1 显示了在每个情形下不同的估计达到的相对测试误差的箱线图.在每个岭回归拟合中使用的对应的平均自由度(\eqref{3.50})也标出来了.

Recall: \eqref{3.50}

自由度是一个比 $\lambda$ 更有解释性的参数.从图中我们看到,在 $p=20$ 时,$\lambda=0.001$(20df) 的岭回归最优;当 $p=100$ 时 $\lambda=100$ (35df) 最优,并且当 $p=1000$ 时 $\lambda=1000$ (43df) 最优.

这些结果可以解释如下.当 $p=20$ 时,我们拟合所有的情形,并且可以以低偏差尽可能地识别更多的显著系数.当 $p=100$ 时,我们可以采用中等程度的收缩识别一些非零的系数.最后,当 $p=1000$ 时,即使有许多非零系数,但我们并不希望找到它们,而且需要统一收缩它们.为了说明这个结论,令 $t_j=\hat\beta_j/\widehat{se}_j$,其中 $\hat\beta_j$ 是岭回归估计,而 $\widehat{se}_j$ 是标准误差的估计.接着在这三种情形中取最优的岭回归参数,$\vert t_j\vert$ 为 2.0, 0.6 和 0.2,并且超过 2 的 $\vert t_j\vert$ 的平均个数等于 9.8,1.2 和 0.0.

$\lambda=0.001$ 的岭回归成功利用了当 $ p < N$ 时的特征的相关性,但是当 $ p > > N$ 时不能这样处理.在后者的情形下,在相对较少的样本中没有足够的信息来有效估计高维协方差阵.这种情形下,更大的正则化会有更好的预测表现.

因此高维数据的分析要求对 $N > p$ 情形的方法进行改动,或者采用全新的方法.这章中我们讨论用于高维分类和回归问题时的两种方式的例子;这些方法趋向有更重的正则化,使用 科学的语境知识 (scientific contextual knowledge) 来得到适当形式的正则化.这章以 特征选择 (feature selection)多重检验 (multiple testing) 结束.

Comments