

2.2 变量类型和术语¶

原文	The Elements of Statistical Learning
翻译	szcf-weiya
发布	2016-09-30
更新	2025-12-30
状态	Done

这些例子中的输出变量本质都不相同．在预测葡萄糖的例子中，输出变量是 定量 (quantitative) 的度量，有些度量大于其他的，而且测量结果在数值上相近也意味着结果本质上相近．著名的 R.A.Fisher 分辨鸢尾花种类例子中，输出变量（鸢尾花的种类）是 定性的 (qualitative) 而且假设取值为有限集合 ${\cal G}=\{Virginica,Setosa,Versicolor\}$．在手写数字的例子中，输出变量的取值是 $10$ 个不同数字之一：${\cal G}=\{0,1,…,9\}$．在这些例子中分类没有明显的顺序，而且事实上经常用描述性标签而不是数字来代替这些分类．定性变量也被称为 类别型 (categories) 或者 离散 (discrete) 型变量，也被称作 因子 (factors)．

对于两种类型的输出变量，考虑使用输入变量去预测输出变量是有意义的．给定今天和昨天特定的大气测量结果，我们想要预测明天的臭氧层．给定手写数字的数字化图片中像素的灰度值，我们想要预测该图片是属于哪一个类．

输出类型的差别导致对预测的命名规定：当我们预测定量的输出时被称为 回归 (regression)，当我们预测定性的输出时被称为 分类(classification)．我们将会看到这两个任务有很多的共同点，特别地，两者都可以看成是函数逼近．

输入变量同样有多种度量类型；我们可以有一些定性和定量输入变量的组合. 这些差异也导致了用于预测的方法类型的区分：某些方法最适合于定量的输入变量，某些方法最适合于定性的输入变量，还有一些适用于两者．

第三种变量类型是 有序分类 (ordered categorical)，如 小(small)、中 (medium) 和 大 (large)，在这些值之间存在顺序，但是没有合适的度量概念（中与小之间的差异不必和大与中间的差异相等）．这将在第四章中讨论．

定性的变量常用数字编码来表示．最简单的情形是只有两个分类，比如说“成功”与“失败”，“生存”与“死亡”．这些经常用一位二进制数来表示，比如 $0$ 或 $1$，或者用 $-1$ 和 $1$ 来表示．因为一些显然的原因，这些数字编码有时被称作 指标 (targets)．当存在超过两个的类别，存在其他可行的选择．最有用并且最普遍使用的编码是 虚拟变量(dummy variables)．这里有 $K$ 个水平的定性变量被一个 $K$ 位的二进制变量表示，每次只有一个在开启状态．尽管更简洁的编码模式也是可能的，但虚拟变量在因子的层次中是对称的．

我们将经常把输入变量用符号 $X$ 来表示．如果 $X$ 是一个向量，则它的组成部分可以用下标 $X_j$ 来取出．定量的输出变量用 $Y$ 来表示，对于定性的输出变量采用 $G$ 来表示（group 的意思）．当指一般的变量，我们使用大写字母 $X,Y,G$ 来表示，对于观测值我们用小写字母来表示；因此 $X$ 的第 $i$ 个观测值记作 $x_i$ （其中，$x_i$ 要么是标量要么是向量）矩阵经常用粗体的大写字母来表示；举个例子，$N$ 个 $p$ 维输入向量 $x_i,i=1,\cdots,N$ 可以表示成 $N\times p$ 的矩阵 $\mathbf{X}$ ．一般地，向量不是粗体，除非它们有 $N$ 个组成成分；这个约定区分了包含变量 $X_j$ 的所有观测值的 $N$ 维向量 $\mathbf{x}_j$ 和第 $i$ 个观测值的 $p$ 维向量 $x_i$ ．因为所有的向量都假定为列向量， $\mathbf{X}$ 的第 $i$ 行是 $x_i$ 的转置 $x_i^T$ ．

现在我们可以不严谨地把学习叙述成如下：给定输入向量 $X$，对输出 $Y$ 做出一个很好的估计，记为 $\hat{Y}$ ．如果 $Y$ 取值为 $\IR$，则 $\hat{Y}$ 取值也是 $\IR$ ；同样地，对于类别型输出，$\hat{G}$ 取值为对应 $G$ 取值的集合 $\cal{G}$．

对于只有两种类别的 $G$，一种方式是把二进制编码记为 $Y$，然后把它看成是定量的输出变量．预测值 $\hat{Y}$ 一般落在 $[0,1]$ 之间，而且我们可以根据 $\hat{y} > 0.5$ 来赋值给 $\hat{G}$ ．这种方式可以一般化为有 $K$ 个水平的定性的输出变量．

我们需要数据去构建预测规则，经常是大量的数据．因此我们假设有一系列可用的测量值 $(x_i,y_i)$ 或 $(x_i,g_i),i=1,\cdots,N$ ，这也称之为 训练数据 (training data)，将利用这些训练数据去构建我们的预测规则．

2.2 变量类型和术语¶

💬 讨论区