Skip to content

8.4 自助法和贝叶斯推断之间的关系

原文 The Elements of Statistical Learning
翻译 szcf-weiya
发布 2017-02-08
更新 2019-07-28 10:33:24
状态 Done

首先考虑一个非常简单的例子,我们考虑服从正态分布的单个观测变量 $z$ 为了完成关于 $\theta$ 的贝叶斯分析,我们需要确定一个先验.最方便和普遍的选择是 $\theta\sim N(0, \tau)$,得到后验分布 于是当我们选择的 $\tau$ 越大,后验在最大似然估计 $\hat\theta=z$ 附近越集中.当 $\tau\rightarrow\infty$ 时,我们得到一个无信息(常值)先验,后验分布为 这与参数自助法(从采样密度 $N(z,1)$ 的最大似然估计产生自助法值 $z^*$)的分布相同.

有三点性质实现了这种对应关系.

  1. $\theta$ 的无信息先验的选择;
  2. 数据 $\mathbf Z$ 上的对数似然函数$\ell(\theta;\mathbf Z)$的独立性仅仅与最大似然估计$\hat\theta$有关.因此可以将对数似然函数写成$\ell(\theta;\hat\theta)$
  3. 关于$\theta$和$\hat\theta$的对数似然函数存在对称性,也就是,$\ell(\theta;\hat\theta)=\ell(\hat\theta;\theta)+\text{constant}$

性质 (2) 和 (3) 本来只有当为高斯分布时才满足.然而,对于多项式分布也近似满足,导出非参自助法和贝叶斯推断之间的对应,我们将在下面阐述要点.

假设我们有 $L$ 个类别的离散样本空间.令 $w_j$ 为样本点落入第 $j$ 类的概率,而 $\hat w_j$ 为第 $j$ 类的观测比例.令 $w=(w_1,w_2,\ldots,w_L)$,$\hat w=(\hat w_1,\hat w_2,\ldots, \hat w_L)$.记我们的估计为 $S(\hat w)$;取参数为 $a$ 的对称 Dirichlet 分布作为 $w$ 的先验分布:

也就是,先验概率质量函数与 $\prod_{\ell=1}^Lw_\ell^{a-1}$ 成比例.则 $w$ 的后验密度为 其中 $N$ 为样本大小.令 $a\rightarrow 0$ 得到无信息先验情形下的后验 对于有放回取样得到的自助法分布,它可以表示成从多项式分布中对类别比例进行抽样,即 其中,$\mathrm {Mult}(N,\hat w)$ 为多项式分布,概率质量函数为 $\binom{N}{N\hat w_1^*,\ldots,N\hat w_L^*}\prod\hat w_\ell^{N\hat w_\ell^*}$. 这个分布与上面的后验分布很相似,有着相同的支撑集,相同的均值,以及近似相同的协方差矩阵.因此 $S(\hat w^*)$ 的自助法分布近似为 $S(w)$ 的后验分布.

weiya 注:

从这点看,自助法分布表示我们参数的(近似的)非参、无信息后验分布.但是自助法分布可以很方便地得到——不需要正式地确定一个先验而且不需要从后验分布中取样.因此我们或许可以把自助法分布看成一个“穷人的”贝叶斯后验.通过扰动数据,自助法近似于扰动参数后的贝叶斯效应,而且一般实施起来更简单.

Comments