12.4 广义线性判别分析¶
原文 | The Elements of Statistical Learning |
---|---|
翻译 | szcf-weiya |
发布 | 2018-07-21 |
更新 | 2018-07-20 |
状态 | Done |
在 4.3 节,我们讨论了线性判别分析 LDA 这一基础的分类工具.这章剩余部分我们将讨论通过直接推广 LDA 得到比 LDA 更好的分类器的一类技巧.
LDA 有如下的优点:
- 它是简单的原型分类器.将新观测划分到离类别重心最近的那个类.需要注意的是,距离是采用 Mahalanobis 度量,其中使用混合的协方差估计.
- 如果每一类的观测服从多元高斯分布,且有共同的协方差矩阵,则 LDA 是贝叶斯分类器的估计.因为这个假设不太可能是正确的,所以这似乎并不是一个优点.
- 通过 LDA 生成的判别边界是线性的,使得判别边界可以很简单地来描述以及实现.
- LDA 提供了数据的一个自然的低维视角.举个例子,图 12.12 是在 256 维空间中十个类别的数据的富有信息量的二维视角.
- LDA 通常能得到最好的分类结果,因为它的简单性以及低方差.LDA 在 STATLOG 项目中研究的 22 个数据集中的 7 个,是前三个最好的分类器之一 (Michie et al., 19941)
不幸的是,LDA 的简单性也导致它在某些情形失效:
- 通常线性判别边界不足以分离类别.当 $N$ 很大时,估计更复杂的判别边界是可能的.二次判别分析 (QDA) 在这里经常是有用的,并且允许二次判别边界.更一般地,我们可以建立更加不规则的判别边界的模型.
- 换句话说,上条提及的 LDA 的缺点可以说成每个类别分配一个简单的原型是不充分的.LDA 采用简单的原型(类别重心)以及共同的协方差阵来描述每个类别的数据的分布.在许多情形中,多个原型会更合适.
- 另一方面,我们可能有太多的(相关的)预测变量,举个例子,在数字话信号或者图像.这种情形下,LDA 采用过多的参数,估计时方差太大,并且效果受此影响.在这些情形下,我们需要进一步约束或正则化 LDA.
在这章的剩余部分,我们描述一类技巧,它们通过推广 LDA 模型来试图解决这些问题.这大体上通过三种不同的思路实现.
第一种思路是将 LDA 改成线性回归问题.有许多讲线性回归推广到更灵活、非参形式的技巧.这相应地能够导出判别分析的更灵活的形式,我们称之为 FDA.在大多数感兴趣的情形,回归过程可以看成是通过基展开识别扩大后的预测变量集.FDA 意味着在增广空间中的 LDA,这是 SVMs 中一样的模式.
在有太多预测变量的情形中,比如数字图像的像素点,我们不想扩充这个集合:因为已经太大了.第二种思路是拟合 LDA 模型,但是对参数进行惩罚使其光滑或者在空间域中保持一致,比如,仍成为一张图像.我们称这个过程为 带惩罚的判别分析 (penalized discriminant analysis),或者 PDA.采用 FDA 时,扩充的基的集合经常太大,使得需要正则化(这又与 SVMs 一样).这都可以在 FDA 模型情形下,通过合适的正则化回归实现.
第三种思路是用两个及其以上的有着不同重心的高斯分布的混合来对每个类别建模,但是对于每个高斯组分,类别间或类别内都采用同一个协方差矩阵.这允许更复杂的判别边界,并且像 LDA 一样允许子空间降维.我们称这个为 混合判别分析 (mixture discriminant analysis),或者 MDA.
通过探索这三种推广与 LDA 的联系,使得它们采用通用的框架.
-
Michie, D., Spiegelhalter, D. and Taylor, C. (eds) (1994). Machine Learning, Neural and Statistical Classification, Ellis Horwood Series in Artificial Intelligence, Ellis Horwood. ↩