Skip to content

7.7 贝叶斯方法和BIC

原文 The Elements of Statistical Learning
翻译 szcf-weiya
时间 2017-02-18:2017-02-19
更新 2017-09-17& 2018-01-05& 2018-03-05
状态 Done

贝叶斯信息准则 (BIC) 和 AIC 一样在由极大似然得到的拟合的设定中是可行的。BIC 一般形式为

BIC 准则(乘以 1/2)也被称作 Schwarz 准则 (Schwarz,19781)。

高斯模型下,假设方差 $\sigma_\varepsilon^2$ 是已知的,$-2\cdot \loglik$ 等于 $\sum_i(y_i-\hat f(x_i))^2/(\sigma_\varepsilon^2)$ 乘以某个常数,对于平方误差损失等于 $N\cdot\overline{\err}/\sigma_\varepsilon^2$。因此我们可以写成 因此当用 2 替换 $\log N$ 后,BIC 与 AIC($C_p$)成比例的。假设 $N>e^2\approx 7.4$,BIC 趋向于对复杂模型惩罚更重,偏向于选择更简单的模型。如同 AIC,$\sigma_\varepsilon^2$ 一般通过低偏差模型的均方误差来估计。对于分类问题,选择交叉熵作为误差衡量,使用多项对数似然会导出与 AIC 更相似的关系。注意到尽管误分类误差衡量在 BIC 情形下不会发生,因为它并不对应于在任何概率模型下数据的对数似然。

尽管和 AIC 很相似,但 BIC 的来源 (motivation) 截然不同。它来源于使用贝叶斯方法来选择模型,我们现在进行讨论。

假设我们有一系列预选模型 ${\cal M_m},m=1,\ldots,M$,以及对应的模型参数 $\theta_m$,我们希望从中选择最优的模型。假设我们对每个模型$\cal M_m$ 的参数有先验分布 $\Pr(\theta_m\mid\cal M_m)$,给定模型的后验概率为 其中 $\mathbf Z$ 表示训练数据 $\{x_i,y_i\}_1^N$。为了比较两个模型 $\cal M_m$ 和 $\cal M_\ell$,我们构造后验odds 如果 odds 大于 1,则我们选择模型 $m$,否则我们选择模型 $\ell$。最右端的值 称为 贝叶斯因子 (Bayes factor),这是数据对于后验 odds 的贡献。

一般地我们假设模型的先验分布是均匀的,所以 $\Pr(\cal M_m)$ 为常值。我们需要其它的方式来估计 $\Pr(\mathbf Z\mid \cal M_m)$。在某些简化 (Ripley, 19962) 下,对式 (7.37) 采用被称作对积分的 Laplace 近似得到 这里$\hat \theta_m$为极大似然估计,且$d_m$为模型$\cal M_m$自由参数的个数。如果我们定义我们的损失函数为 这等价于(7.35)的BIC准则。

因此,选择 BIC 最小的模型等价于选择有最大(近似)后验概率的模型。但是这个框架给我们的信息更多。如果我们对$M$个元素的模型集合进行计算BIC准则,得到 $\mathrm{BIC}_m,m=1,2,\ldots,M$,则我们估计每个模型 $\cal M_m$ 的后验概率为 因此我们不仅可以估计最优的模型,还可以所考虑的模型的相对优点。

用于模型选择,AIC 和 BIC之间没有明显的选择。BIC 作为选择准则是渐近一致的,这意味着给出模型族,其中包含真实模型,BIC选择正确模型的概率当$N\rightarrow \infty$时是1。对于 AIC 这是不成立的,当 $N\rightarrow \infty$ 时,趋向于选择太复杂的模型。另一方面,在有限样本时,BIC经常选择太过简单的模型,因为对模型复杂度的惩罚更大。

weiya 注

BIC是强相合的,而AIC不是。 强相合估计: 如果$\hat\theta_N\; a.s.$收敛到$\theta$,则称$\hat\theta_N$是$\theta$的强相合估计。


  1. Schwarz, G. (1978). Estimating the dimension of a model, Annals of Statistics 6(2): 461–464. 

  2. Ripley, B. D. (1996). Pattern Recognition and Neural Networks, Cambridge University Press. 

Comments