

5.1 导言¶

原文	The Elements of Statistical Learning
翻译	szcf-weiya
发布	2017-02-08
更新	2019-09-01 16:37:39
状态	Done

我们已经对回归和分类运用了关于输入特征为线性的模型．线性回归，线性判别分析，逻辑斯蒂回归和分离超平面都依赖于线性模型．关于 $X$ 的真实的函数 $f(X)$ 不太可能恰好为线性的．在回归问题中，$f(X)=\E(Y\mid X)$ 关于 $X$ 一般不是线性的也不是可加的，但用线性模型来表示 $f(X)$ 通常是很方便的，而且有时候是必要的近似．方便是因为线性模型是可以很容易地解释，而且是 $f(X)$ 的一阶泰勒近似．有时候是必要的是因为当 $N$ 很小 $p$ 很大时，线性模型可能不需要过拟合就可以达到拟合数据的目的．在分类中也是类似的，一个线性、贝叶斯最优的判别边界表明关于 $X$ 的 $\Pr(Y=1\mid X)$ 的一些单调变换是线性的．这必然是一个近似．

这章中和接下来的章节中我们将要讨论对于 超线性 (moving beyond linearity) 的一些流行的方法．这章中核心思想是利用额外的变量来增加或者替换输入 $X$ 的向量，然后在新得到的输入特征的空间中运用线性模型．

用 $h_m(X):\IR^p\longmapsto \IR$ 来记 $X$ 的第 $m$ 个变换，$m=1,\ldots, M.$ 然后我们建立模型 $f(X)=\sum\limits_{m=1}^M\beta_mh_m(X)\tag{5.1}$ 这是关于 $X$ 的 线性基展开式 (linear basis expansion)．这种方式的优美在于一旦确定了基函数 $h_m$，模型关于这些新变量是线性的，然后就可以像之前一样进行拟合．

一些简单、运用广泛的 $h_m$ 例子如下所述：

$h_m(X)=X_m,m=1,\ldots,p$ 回到了最初的线性模型
$h_m(X)=X_j^2$ 或者 $h_m(X)=X_jX_k$ 允许增加输入中的多项式项来达到高阶的泰勒展开．然而，注意到变量的个数随着多项式的度指数增长．含 $p$ 个变量的二次模型要求 $O(p^2)$ 的平方项和交叉项，或者更一般地，对于阶数为 $d$ 的多项式需要 $O(p^d)$.
$h_m(x)=\log(X_j),\sqrt{X_j},\ldots $ 允许单输入的其它非线性变换．更一般地，可以使用含有其他输入变量的类似的函数，比如说 $h_m(X)=\Vert X\Vert$.
$h_m(X)=I(L_m\le X_k\le U_m)$，关于 $X_k$ 区域的示性函数．通过将 $X_k$ 的值域分成 $M_k$ 个这样的非重叠的区域，结果得到一个关于 $X_k$ 分段常值的分布模型．

有时候手边的问题需要特殊的基函数 $h_m$，比如对数或者幂函数．然而，我们经常运用基展开来更加灵活地表示 $f(X)$．多项式是后者的一个例子，尽管它们会被全局的特性所限制——在某一区间内调整系数以达到某种函数形式会造成函数在远的区域内剧烈地振荡．在这章中，我们考虑更加实用的 分段多项式 (piecewise-polynimials) 族和 样条 (splines)，它们允许局部的多项式表示．我们也考虑小波基，这在信号和图像处理中特别有用．这些方法产生了一个包含数量为 $\vert\cal D\vert$ 的基函数的字典 $\cal D$，数量远远超出我们可以拟合的数据．除了字典 $\cal D$，我们需要一种方式来控制我们模型（从字典中选择基函数）的复杂度．通常有三种方式：

限制方法，事先 (before-hand) 确定限制函数的类别．可加性便是一个例子，假设我们的模型有如下形式 $\begin{align} f(X)&=\sum\limits_{j=1}^pf_j(X_j)\notag\\ &=\sum\limits_{j=1}^p\sum\limits_{m=1}^{M_j}\beta_{jm}h_{jm}(X_j)\tag{5.2} \end{align}$ 该模型的大小通过每个分量 $f_j$ 中的基函数的个数 $M_j$ 来决定．
选择方法，自适应地扫描该词典并且只将对模型的拟合有显著性作用的基函数 $h_m$ 包括进去．在第三章中讨论的变量选择技巧是很有用的．像 CART，MARS 和 boosting 这些逐步贪婪的方式也划为这一类．
正则化方法，我们使用整个字典，但是对系数作限制．岭回归是正则化方式一个很简单的例子，而 lasso 既是正则化方法也是选择方法．这章我们将讨论这些内容以及更加复杂的正则化方法．

5.1 导言¶

💬 讨论区