MCMC 如何帮助贝叶斯推理?

Kid*_*g_C 5 statistics markov-chains bayesian montecarlo mcmc

文献称MCMC中的metropolis-hasting算法是上世纪发展起来的最重要的算法之一,具有革命性。文献还说,正是 MCMC 的这种发展给了贝叶斯统计第二次诞生。

我了解 MCMC 的作用 - 它提供了一种从任何复杂概率分布中抽取样本的有效方法。

我也知道贝叶斯推理是什么——它是计算参数的完整后验分布的过程。

我很难在这里连接点:MCMC 在贝叶斯推理过程中的哪一步发挥作用?为什么 MCMC 如此重要以至于人们说是 MCMC 给了贝叶斯统计第二次出生?

nic*_*ick 5

您可能想在 StatsExchange 上问类似的问题。然而,这里是一个高层次的“建立一些直觉”答案的尝试(免责声明:我是一名计算机科学家,而不是统计学家。前往 StatsExchange 进行更正式的讨论)

贝叶斯推理:

在最基本的意义上,我们遵循贝叶斯规则:p(θ|y)=p(y|θ)p(θ)/p(y)。这里 p(θ|y) 被称为“后验”,这就是您要计算的内容。p(y|θ) 称为“数据似然”,通常由您的模型或数据的生成描述给出。p(θ) 称为“先验”,它捕获您在观察数据之前对参数的合理值的信念。p(y) 称为“边际似然”,使用全概率定律可表示为 ∫ p(y|θ)p(θ) dθ。这看起来确实很简洁,但实际上 p(y) 通常难以进行分析计算,并且在高维度(即当 θ 具有多个维度时)数值积分不精确且计算上难以处理。在某些情况下,问题的共轭结构允许您进行分析计算,但在许多有用的模型中,这是根本不可能的。因此,我们转向近似后

有两种方法(据我所知)可以近似后验:蒙特卡洛变分推理。既然你问了MCMC,那我就继续说吧。

蒙特卡罗(和马尔可夫链蒙特卡罗):

统计学中的许多问题都涉及概率分布下函数的期望。根据大数定律,可以通过蒙特卡洛估计器有效地近似期望。因此,如果我们可以从分布中抽取样本(即使我们不知道分布本身),那么我们就可以计算相关期望的蒙特卡洛估计。关键是我们不需要分布表达式:如果我们只有样本,那么我们可以计算我们感兴趣的期望。但是有一个问题......如何绘制样本?

已经有很多工作开发了从未知分布中抽取样本的方法。其中包括“拒绝”、“重要性”和“切片”采样。这些都是伟大的创新,在许多应用中都很有用,但它们都因难以扩展到高维度而受到影响。例如,拒绝抽样从已知的“建议”分布中抽取样本,然后根据需要评估似然函数和建议函数的概率接受或拒绝该样本。这在一维中是很棒的,但随着维度的增加,给定样本被拒绝的概率质量急剧增加。

马尔可夫链蒙特卡罗是一项创新,具有一些非常好的理论保证。关键思想是不是从提案分布中随机抽取样本,而是使用已知样本(希望样本位于高概率质量区域中),然后在从提案分布中抽取样本时进行一个小的随机步骤。理想情况下,如果第一次抽奖位于高概率质量区域,那么第二次抽奖也可能被接受。因此,您最终会接受更多的样品,并且不会浪费时间绘制要拒绝的样品。令人惊奇的是,如果您运行马尔可夫链足够长的时间(即无穷大)并且在特定条件下(该链必须是有限的、非周期的、不可约的和遍历的),那么您的样本将从模型的真实后验中抽取。太棒了!MCMC 技术是绘制相关样本,因此它比以前的方法缩放到更高的维度,但在正确的条件下,即使样本是相关的,它们也就像是从所需的分布(这是中的后验分布)中绘制的 IID 一样。贝叶斯推理)。

将其结合在一起(并希望回答您的问题):

MCMC 可以被视为实现贝叶斯推理的工具(就像从共轭结构进行分析计算一样,变分推理和蒙特卡洛是替代方案)。除了解析解之外,所有其他工具都逼近真实的后验。我们的目标是使近似值尽可能好,并尽可能便宜地做到这一点(计算成本和计算一堆混乱代数的成本)。以前的采样方法无法扩展到高维度(这是任何现实世界问题的典型),因此贝叶斯推理在许多情况下在计算上变得非常昂贵且不切实际。然而,MCMC 打开了一种新方法的大门,可以有效地从高维后验中提取样本,并具有良好的理论保证,并且(相对)轻松且计算成本低。

值得一提的是,Metropolis 本身也存在问题:它与高度相关的潜在参数空间作斗争,它需要用户指定的提案分布,并且样本之间的相关性可能很高,导致结果有偏差。因此,人们提出了更现代、有时更有用的 MCMC 工具来尝试解决这个问题。请参阅“哈密尔顿蒙特卡罗”和“无 U 型转弯采样器”以了解最先进的技术。尽管如此,大都会是一项巨大的创新,它突然使现实世界的问题变得可以通过计算解决。

最后一点:请参阅MacKay 的讨论,了解这些主题的真正概述。