2.2 变量类型和术语¶
原文 | The Elements of Statistical Learning |
---|---|
翻译 | szcf-weiya |
发布 | 2016-09-30 |
更新 | 2024-09-12 |
状态 | Done |
这些例子中的输出变量本质都不相同.在预测葡萄糖的例子中,输出变量是 定量 (quantitative) 的度量,有些度量大于其他的,而且测量结果在数值上相近也意味着结果本质上相近.著名的 R.A.Fisher 分辨鸢尾花种类例子中,输出变量(鸢尾花的种类)是 定性的 (qualitative) 而且假设取值为有限集合 ${\cal G}=\{Virginica,Setosa,Versicolor\}$.在手写数字的例子中,输出变量的取值是 $10$ 个不同数字之一:${\cal G}=\{0,1,…,9\}$.在这些例子中分类没有明显的顺序,而且事实上经常用描述性标签而不是数字来代替这些分类.定性变量也被称为 类别型 (categories) 或者 离散 (discrete) 型变量,也被称作 因子 (factors).
对于两种类型的输出变量,考虑使用输入变量去预测输出变量是有意义的.给定今天和昨天特定的大气测量结果,我们想要预测明天的臭氧层.给定手写数字的数字化图片中像素的灰度值,我们想要预测该图片是属于哪一个类.
输出类型的差别导致对预测的命名规定:当我们预测定量的输出时被称为 回归 (regression),当我们预测定性的输出时被称为 分类(classification).我们将会看到这两个任务有很多的共同点,特别地,两者都可以看成是函数逼近.
输入变量同样有多种度量类型;我们可以有一些定性和定量输入变量的组合. 这些差异也导致了用于预测的方法类型的区分:某些方法最适合于定量的输入变量,某些方法最适合于定性的输入变量,还有一些适用于两者.
第三种变量类型是 有序分类 (ordered categorical),如 小(small)、中 (medium) 和 大 (large),在这些值之间存在顺序,但是没有合适的度量概念(中与小之间的差异不必和大与中间的差异相等).这将在第四章中讨论.
定性的变量常用数字编码来表示.最简单的情形是只有两个分类,比如说“成功”与“失败”,“生存”与“死亡”.这些经常用一位二进制数来表示,比如 $0$ 或 $1$,或者用 $-1$ 和 $1$ 来表示.因为一些显然的原因,这些数字编码有时被称作 指标 (targets).当存在超过两个的类别,存在其他可行的选择.最有用并且最普遍使用的编码是 虚拟变量(dummy variables).这里有 $K$ 个水平的定性变量被一个 $K$ 位的二进制变量表示,每次只有一个在开启状态.尽管更简洁的编码模式也是可能的,但虚拟变量在因子的层次中是对称的.
我们将经常把输入变量用符号 $X$ 来表示.如果 $X$ 是一个向量,则它的组成部分可以用下标 $X_j$ 来取出.定量的输出变量用 $Y$ 来表示,对于定性的输出变量采用 $G$ 来表示(group 的意思).当指一般的变量,我们使用大写字母 $X,Y,G$ 来表示,对于观测值我们用小写字母来表示;因此 $X$ 的第 $i$ 个观测值记作 $x_i$ (其中,$x_i$ 要么是标量要么是向量)矩阵经常用粗体的大写字母来表示;举个例子,$N$ 个 $p$ 维输入向量 $x_i,i=1,\cdots,N$ 可以表示成 $N\times p$ 的矩阵 $\mathbf{X}$ .一般地,向量不是粗体,除非它们有 $N$ 个组成成分;这个约定区分了包含变量 $X_j$ 的所有观测值的 $N$ 维向量 $\mathbf{x}_j$ 和第 $i$ 个观测值的 $p$ 维向量 $x_i$ .因为所有的向量都假定为列向量, $\mathbf{X}$ 的第 $i$ 行是 $x_i$ 的转置 $x_i^T$ .
现在我们可以不严谨地把学习叙述成如下:给定输入向量 $X$,对输出 $Y$ 做出一个很好的估计,记为 $\hat{Y}$ .如果 $Y$ 取值为 $\IR$,则 $\hat{Y}$ 取值也是 $\IR$ ;同样地,对于类别型输出,$\hat{G}$ 取值为对应 $G$ 取值的集合 $\cal{G}$.
对于只有两种类别的 $G$,一种方式是把二进制编码记为 $Y$,然后把它看成是定量的输出变量.预测值 $\hat{Y}$ 一般落在 $[0,1]$ 之间,而且我们可以根据 $\hat{y} > 0.5$ 来赋值给 $\hat{G}$ .这种方式可以一般化为有 $K$ 个水平的定性的输出变量.
我们需要数据去构建预测规则,经常是大量的数据.因此我们假设有一系列可用的测量值 $(x_i,y_i)$ 或 $(x_i,g_i),i=1,\cdots,N$ ,这也称之为 训练数据 (training data),将利用这些训练数据去构建我们的预测规则.