我读过一些关于使用其他分布对强化学习中的随机策略进行建模的文章。通常我们使用高斯分布,但有些使用 Beta 分布:https://en.wikipedia.org/wiki/Beta_distribution
Tensorflow内部已经有一个Beta分布类,允许人们将其用作Tensor。但对于某些策略梯度方法,他们使用 Kullback Leiber Divergence 对优化过程进行约束。
公式中包含已在 Tensorflow 中实现的 digamma 函数。但我在 Tensorflow 中找不到 beta 函数(也找不到 gamma 函数,因为它们是链接的)。仅记录伽玛或不完整伽玛。我无法使用 scipy.special.beta 函数,因为它无法操纵张量(因为我的 alpha 和 beta 参数是由神经网络生成的)
我在这个领域不够专业,也许我的问题很愚蠢,但我真的很想要一个解释。
多谢