Skip to content

7.6 参数的有效个数

原文 The Elements of Statistical Learning
翻译 szcf-weiya
时间 2017-02-18:2017-02-18
更新 2019-07-27 18:07:50
状态 Done

“参数个数”概念可以推广,特别是推广到在拟合中使用了正则的模型中.假设我们将输出 $y_1,y_2,\ldots,y_N$ 放进向量 $\mathbf y$ 中,类似地对预测值进行同样操作得到 $\hat{\mathbf y}$.于是我们可以将线性拟合模型写成

其中 $\mathbf S$ 为依赖于输入向量 $x_i$ 但不依赖于输出 $y_i$ 的 $N\times N$ 阶矩阵.线性拟合方法包括在原始特征或在导出基的集合中运用的线性回归,以及采用平方收缩的光滑化方法,比如岭回归和三次光滑样条.则 有效参数个数(effective number of parameters) 定义为

是 $\mathbf S$ 对角元之和(也被称作 有效自由度 (effective degrees-of-freedom)).注意到如果 $\mathbf S$ 为投影到由 $M$ 个特征张开的 基础集 (basis set) 上的正交投影矩阵,则 $\trace(\mathbf S)=M$.事实证明 $trace(\mathbf S)$ 恰巧是 $C_p$ 统计量 \eqref{7.26} 替换掉 $d$ 作为参数个数的那个值.

weiya 注: Recall

如果 $\mathbf y$ 是从加性误差模型 $Y=f(X)+\varepsilon$ 中产生的,$\Var(\varepsilon)=\sigma_\epsilon^2$,则可以证明 $\sum_{i=1}^N\Cov(\hat y_i,y_i)=\trace(\mathbf S)\sigma_{\varepsilon}^2$,导出了更一般的定义

练习 7.47.5).5.4.1 节给出了在光滑样条情形下 $\df=\trace(\mathbf S)$ 更直观的定义.

weiya 注:Ex. 7.4

已解决,详见 Issue 27: Ex. 7.4.

weiya 注:Ex. 7.5

已解决,详见 Issue 195: Ex. 7.5.

对于像神经网络的模型,我们用系数衰减(正则化)$\alpha\sum_m w_m^2$ 来最小化误差函数 $R(w)$,有效参数个数有如下形式

其中 $\theta_m$ 是Hessian矩阵$\partial^2R(w)/\partial w\partial w^T$的特征值.如果我们对解的误差函数做二次近似便可由式 \eqref{7.32} 导出式 \eqref{7.34} (Bishop,19951)


  1. Bishop, C. (1995). Neural Networks for Pattern Recognition, Clarendon Press, Oxford. 

Comments