如果这很重要,我正在使用Rstan。
Stan让我们以可变模式和采样模式运行,而可变模式要快得多。我的问题是,变分Stan的行为是否可以提供有关我们模型的任何线索。
变异模式具有几种行为,我想知道它们是否可以提供线索,说明我们的模型有不正确的地方,甚至有什么不正确的地方。例如:
在eta自适应过程中,我们可能会出错。
通常在任何迭代之前,但有时在后续迭代期间,我们可能会在梯度上升期间出现错误。
我们可以在梯度上升中产生差异-即,增量ELBO平均值会爆炸。
我们可以让增量ELBO均值/中位数增加到高于初始1.0,然后降低直到收敛。
ELBO均值/中位数的增量从1.0开始减少,但需要进行更多或更少的迭代。
我们可以让德尔塔ELBO平均值或中位数或两者都收敛(即低于0.01)。
我在考虑经验法则。例如,在进行采样时,如果我有一个合理大小的数据集和一个相当简单的模型,但是采样花费的时间不合理,那么我的第一个想法就是检查先验条件。当我将优先级保留为默认值(平坦,不正确的优先级)时,我已经看到了这种行为,并且通常通过将模糊的优先级放在事物上来解决此问题,以使采样器远离样本空间中难以置信的部分。
任何人都有关于均值场模式的经验法则或见解-既有其自身的优势,又有可能与采样有何关系?
stan ×1