在这种情况下,其中一个输入是选择手臂/动作的概率,但我们如何找到该概率?是不是发现概率本身就是一项重大任务?
提供概率意味着您正在采取一个场景,其中您正在输入历史上采取的操作(例如从日志中),而不是执行真实的在线场景。这很有用,因为(至少部分)Vowpal 的上下文强盗模型可以从历史数据中引导。这意味着,通过历史数据学习的 Contextual Bandits 策略可以胜过从头开始在线学习的策略 \xe2\x80\x95 ,只有当你拥有与你的在线场景相关的历史数据时,你才能做到这一点。
\n\nWiki页面最近经过编辑,以更好地反映这种格式适用于这种情况。
\n\n包含概率的另一个(人为的)用例可能是您正在针对多个环境进行操作,但无论如何,据我所知,这里的概率可以解释为纯粹的频率。
\n\n因此,我的理解是,当不输入历史交互数据时,您不必在输入中提供概率部分。只需跳过它,如此处的示例所示。
\n| 归档时间: | 
 | 
| 查看次数: | 490 次 | 
| 最近记录: |