Vowpal Wabbit：关于在历史数据上训练上下文老虎机的问题

Question

我从这个页面知道，有一个选项可以根据使用一些探索策略收集的历史上下文强盗数据来训练上下文强盗大众模型：

VW 包含一个上下文老虎机模块，它允许您根据已收集的上下文老虎机数据优化预测器。换句话说，该模块不实现探索，它假设它只能使用使用探索策略记录的当前可用数据。

它是通过指定--cb和传递格式为action:cost:probability | 的数据来完成的。特点：

1:2:0.4 | a c  
3:0.5:0.2 | b d  
4:1.2:0.5 | a b c  
2:1:0.3 | b c  
3:1.5:0.7 | a d

我的问题是，有没有办法利用不基于上下文老虎机策略--cb（或其他方法）和某种策略评估方法的历史数据？假设操作是根据某些确定性的、非探索性的（编辑：有偏见的）启发式选择的？在这种情况下，我会有action和cost，但我不会有概率（或者它等于 1）。

我尝试了一种方法，我使用探索性方法并假设历史数据已完全标记（为未知奖励分配零奖励），但似乎 PMF 在大多数操作中崩溃为零。

Answer 1

我的问题是，有没有办法利用 --cb （或其他方法）和某些策略评估方法来利用不基于上下文强盗策略的历史数据？假设行动是根据某种确定性的、非探索性的启发式选择的？在这种情况下，我会有行动和成本，但我不会有概率（或者它等于 1）。

是的，将概率设置为 1。对于退化日志记录策略，没有理论上的保证，但实际上这对初始化很有帮助。展望未来，您将希望在日志记录策略中具有一些不确定性，否则您将永远不会改进。

我尝试过一种方法，使用探索性方法并假设历史数据已完全标记（为未知奖励分配零奖励），但 PMF 在大多数操作中都会崩溃到零。

如果您确实拥有完全标记的历史数据，则可以使用热启动功能。如果您假装自己拥有完全标记的数据，我不确定这是否比仅将概率设置为 1 更好。

首先，从一开始就使用 adf，它可以将“固定动作集”作为特殊情况处理。其次，您描述的热启动策略可以工作，但由于探索策略是退化的，即使处理大量数据，它也无法工作。最好的策略是尝试一下，“看看会发生什么”。请注意，要“看看会发生什么”，您将需要一个良好的数据集进行评估，要么是完全标记的，要么是具有非退化探索概率的强盗数据集。 (2认同)