

14.1 导言¶

原文	The Elements of Statistical Learning
翻译	szcf-weiya
发布	2016-09-30
更新	2017-09-10, 2018-03-20
状态	Done

前面的章节我们考虑了给定输入或预测变量 $X^T=(X_1,\ldots,X_p)$ 来预测一个或多个输出或响应变量 $Y=(Y_1,\ldots,Y_m)$ 的值．记 $x_i^T=(x_{i1},\ldots,x_{ip})$ 为第 $i$ 个训练情形的输入，令 $y_i$ 是响应变量的一个测量值．预测是基于已经知道的训练样本 $(x_1,y_1),\ldots,(x_N,y_N)$，其中所有变量的联合分布值是知道的．这称为监督学习 (supervised learning) 或者“有老师指导的学习”．在这个比喻下，“学生”表示在训练样本中每个 $x_i$ 的一个回答 $\hat y_i$，监督或者“老师”要么（不仅）提供正确的答案，要么（并且）给出该学生回答的误差．这通常用一些损失函数来表示 $L(y,\hat y)$，举个例子，$L(y,\hat y)=(y-\hat y)^2$．

如果我们假设 $(X,Y)$ 是用某联合概率密度 $\Pr(X,Y)$ 表示的随机变量，则监督学习可以正式地表征为密度估计的问题，其中涉及确定条件密度 $\Pr(Y\mid X)$的性质．通常我们感兴趣的性质是在每个 $x$ 处最小化期望误差的“位置”参数$\mu$，

$\mu(x)=\underset{\theta}{\mathrm{argmin}}\;E_{Y\mid X}L(Y,\theta)\tag{14.1}$

加上条件分布有

$\Pr(X,Y)=\Pr(Y\mid X)\cdot \Pr(X)$

其中 $\Pr(X)$ 是仅关于 $X$ 的边缘密度．在监督学习中，一般不直接关心 $\Pr(X)$．主要感兴趣的是条件密度的性质 $\Pr(Y\mid X)$．因为 $Y$ 经常是低维（通常为1），并且只有它的位置 $\mu(x)$ 是感兴趣的，问题大大简化了．正如在前面章节讨论的那样，在各种不同情形下都有许多方式成功进行监督学习．

这章中我们讨论非监督学习 (unsupervised learning) 或者“无老师指导的学习”．这种情形下我们只有联合密度为 $\Pr(X)$的 $p$ 维随机向量的 $N$ 个观测的集合 $(x_1,x_2,\ldots,x_N)$．我们的目标是在没有监督，或者老师不提供正确答案，又或者不提供每个观测的错误程度的情况下，直接推断该密度分布的性质．$X$ 的维度有时比监督学习中的高很多，而且我们关心的性质经常比简单的位置估计复杂得多．这些因素在某种程度上被以下事实所缓解：$X$ 表示要考虑的所有变量．我们不需要在其它变量的值改变的情况下推断 $\Pr(X)$ 的性质怎么改变．

在低维问题中 ($p\le 3$)，有各种有效的非参方法来在所有 $X$ 值处直接估计密度 $\Pr(X)$ 本身，并且进行可视化表示（比如，Silverman, 1986¹）．由于维度灾难，这些方法在高维中会失效．必须寻求估计比较粗糙的全局模型，例如高斯混合或者表征 $\Pr(X)$ 的各种简单描述性统计．

一般地，这些描述性统计量试图表征$\Pr(X)$ 相对较大时的 $X$值，或者这些值的集合．例如，主成分、多维缩放、自组织图，以及主曲线都尝试识别具有高数据密度的 $X$ 空间中的低维流形 (manifold)．这提供了这些变量之间的关联信息，以及它们是否可以看成更小的包含“潜 (latent)”变量的集合的函数的信息．聚类分析试图寻找 $X$ 空间中包含 $\Pr(X)$ 模型的多重凸区域．这可以判断 $\Pr(X)$ 是否可以表示成简单密度的混合，这些简单密度表示唯一的观测类型或者类别．混合模型有类似的目标．关联规则试图构造简单的描述（联合规则）来描述在非常高维的二值数据特殊情形中的高密度区域．

weiya 注：流形

流形（manifold）：数学上，流形是一个拓扑空间，在每一点附近局部地近似欧式空间．更精确地，$n$ 维流形的每个点与维度为 $n$ 的欧式空间同态的邻域．

监督学习中，有一个明确的成功或不成功的量度，因此可用于判断特定情况下的充分性 (adequacy)，并比较不同方法在各种情况下的有效性 (effectiveness)．成功的损失直接用在联合分布 $\Pr(X,Y)$ 上的期望损失来衡量．这个可以用各种方式来衡量，包括交叉验证．在非监督学习中，没有这些直接衡量成功的量度．从大部分非监督学习的算法的输出中评估推断的有效性是很难确定的．必须诉诸于启发式变量 (heuristic arguments)，在监督学习也经常使用，这不仅可以激励 (motivating) 算法，而且为了评价结果的质量．因为有效性是主观问题，不能直接加以证实，这种不舒服 (unconfortable) 的情形导致提出的方法激增，

在这章中，我们提出在实际中广泛使用的非监督学习技巧，以及另外一些作者认同的方法．

Silverman, B. (1986). Density Estimation for Statistics and Data Analysis, Chapman and Hall, London. ↩

14.1 导言¶

💬 讨论区