Skip to content

18.5 当特征不可用时的分类

原文 The Elements of Statistical Learning
翻译 szcf-weiya
时间 2017-08-10
更新 2018-04-29
状态 In Progress

proximity matrix

关系矩阵,近似性矩阵,样品间的相似性矩阵。

现实中很多研究对象都很抽象,定义一个特征向量不是很显然的。但是只要我们能够得到 $N\times N$ 的相似性矩阵,我们就可以将相似性解释为内积,这样许多分类器都可以用上去了。

例子:字符串核和蛋白质分类

本节主要讲衡量成对蛋白质模块之间的相似性。

为了构造特征,统计字符串中给定长度为 $m$ 的序列出现的次数,并且计算长度为 $m$ 的所有可能序列的个数。正式的表述是,对于字符串 $x$,我们定义特征映射

其中 $\cal A_m$ 是长度为 $m$ 的子序列的集合,而 $\phi_a(x)$ 为 “a” 出现在字符串 $x$ 出现的次数。应用这个,我们定义内积

它衡量了两个字符串 $x_1$ 和 $x_2$ 的相似性。举个例子,这个用到导出用于将字符串分到不同蛋白质类中的支持向量机。

现在可能序列 $a$ 的个数为 $\cal A_m=20^m$,对于适当的 $m$,这个值可以非常大,并且大部分子序列与我们训练集中的子序列并不匹配。结果是我们可以高效地运用树结构来计算 $N\times N$ 的内积矩阵或者字符串核 $\mathbf K_m$ (18.26),而不用实际计算单个向量。这个方法,以及接下来的数据,来自 Leslie et. al (2004)1

数据中包含两个类别的 1708 个蛋白质——阴性(1663)和阳性(45)。下面这两个该数据集中的例子,称为 $x_1$ 和 $x_2$,这两条字符串中已经标出 LQE 的子序列。可能存在 $20^3$ 的子序列,所以 $\Phi_3(x)$ 是一个长度为 8000 的向量。对于这个例子,$\phi_{LQE}=1,\phi_{LQE}=2$。

ROC curve

ROC 是 receiver operating characteristics 的首字母缩写,用来同时展现分类器的 specificity 和 sensitivity,横轴一般为 specificity (或 false positive rate, 其中 specificity = 1 - false positive rate),纵轴一般为sensitivity (或 true positive rate,其中 sensitivity = true positive rate),通过在不同的阈值下计算这两个值,就可以得到 ROC 曲线。分类器的整体表现可以由 ROC 曲线下的面积 AUC (area under the curve) 给出。

使用 Leslie et. al (2004)1 的软件,我们计算 $m=4$ 时的核,它可以用在支持向量分类器中来在 $20^4=160000$ 维特征空间中寻找最大边缘解 (maximal margin solution)。我们采用 10 折交叉验证来计算在所有训练数据中的 SVM 预测值。图 18.9 中的橘黄色曲线显示了支持向量分类器的 ROC 曲线,通过改变交叉验证的支持向量分类器的预测变量的阈值计算得到。曲线下的面积为 0.84。

分类和其它使用内积核和成对距离的模型

例子:摘要分类


  1. Leslie, C., Eskin, E., Cohen, A., Weston, J. and Noble, W. S. (2004). Mismatch string kernels for discriminative protein classification, Bioinformatics 20(4): 467–476. 

Comments