使用Vowpal wabbit的Contextual Bandit

Question

使用Vowpal wabbit的Contextual Bandit

在这种情况下,其中一个输入是选择手臂/动作的概率,但我们如何找到该概率？是不是发现概率本身就是一项重大任务？

Answer 1

提供概率意味着您正在采取一个场景，其中您正在输入历史上采取的操作（例如从日志中），而不是执行真实的在线场景。这很有用，因为（至少部分）Vowpal 的上下文强盗模型可以从历史数据中引导。这意味着，通过历史数据学习的 Contextual Bandits 策略可以胜过从头开始在线学习的策略 \xe2\x80\x95 ，只有当你拥有与你的在线场景相关的历史数据时，你才能做到这一点。

\n\n

Wiki页面最近经过编辑，以更好地反映这种格式适用于这种情况。

\n\n

包含概率的另一个（人为的）用例可能是您正在针对多个环境进行操作，但无论如何，据我所知，这里的概率可以解释为纯粹的频率。

\n\n

因此，我的理解是，当不输入历史交互数据时，您不必在输入中提供概率部分。只需跳过它，如此处的示例所示。

\n

归档时间：	10 年，5 月前
查看次数：	490 次
最近记录：	7 年，6 月前