

17.1 导言¶

原文	The Elements of Statistical Learning
翻译	szcf-weiya
发布	2017-02-24
更新	2017-08-26; 2018-04-30; 2018-06-10
状态	Done

图 (graph) 由顶点（结点）集，以及连接顶点对的边集构成．在图模型中，每个顶点表示一个随机变量，并且图给出了一种理解全体随机变量联合分布的可视化方式．对于监督学习和非监督学习它们都是很有用的．在 无向图 (undirected graph) 中，边是没有方向的．我们仅限于讨论无向图模型，也称作 马尔科夫随机域 (Markov random fields) 或者 马尔科夫网络 (Markov networks)．在这些图中，两个顶点间缺失一条边有着特殊的含义：对应的随机变量在给定其它变量下是条件独立的．

图 17.1 显示了一个图模型的例子，这是 $p=11$ 个蛋白质在 $N=7466$ 个细胞中的 flow-cytometry 数据集，取自 Sachs et. al (2005)¹．图中的每一个顶点对应蛋白质表达水平的真实值．网络结构是在假定多元高斯分布情况下利用本章后面将要讨论的 graphical lasso 过程估计得到的．

图 17.1. 稀疏无向图的例子，从 flow-cytometry 数据集中估计得到，含有 $p=11$ 个蛋白质在 $N=7466$ 个细胞中的测量值．网络结构是通过本章后面将要讨论的 graphical lasso 过程进行估计的．

稀疏图有相对少的边数，而且非常方便来解读．在各种领域中都有用，包括基因和蛋白质，这些领域中图模型给出了细胞通路的大致模型．在定义和理解图模型上已经有很多工作，参见文献笔记．

正如我们将要看到的，图中的边用值 (value) 或者 势 (potential) 参量化，来表示在对应顶点上的随机变量间条件依赖性的强度大小．采用图模型的主要挑战是模型选择（选择图的结构）、根据数据来估计边的参数，并且从联合分布中计算边缘顶点的概率和期望．后两个任务在计算机科学中有时被称作 学习 (learning) 和 推断(inference)．

我们不去试图全面地了解这个有趣的领域．相反地，这里仅仅介绍一些基本的概念，并且讨论一些估计参数和无向图结构的简单方法；涉及这些技巧的方法已经在本书中讨论了．我们介绍的的估计方式对于连续值和离散值的顶点的情形是不同的，所以我们分别对待它们．17.3.1 节和 17.3.2 节可能是特别有意义的，因为描述了一个全新的、基于回归的过程来估计图模型．

关于 有向图 (directed graphical models) 或者 贝叶斯网络 (Bayesian networks) 有大量并且活跃的文献；这是边有方向箭头（但是没有有向环）的图模型．有向图模型表示可以分解成条件分布乘积的概率分布，并且有解释因果关系的潜力．建议读 Wasserman (2004)² 对无向图和有向图的有个大概的了解；下一节与 18 章联系很紧密．更多有用的参考文献在文献笔记中给出．

Sachs, K., Perez, O., Pe’er, D., Lauffenburger, D. and Nolan, G. (2005). Causal protein-signaling networks derived from multiparameter singlecell data, Science 308: 523–529. ↩
Wasserman, L. (2004). All of Statistics: a Concise Course in Statistical Inference, Springer, New York. ↩

17.1 导言¶

💬 讨论区