Vowpal Wabbit - 如何从测试样本的上下文老虎机模型中获得预测概率

Question

给定经过训练的上下文老虎机模型，如何检索测试样本的预测向量？

例如，假设我有一个名为“train.dat”的火车集，其中包含格式如下的行

1:-1:0.3 | a b c  # <action:cost:probability | features> 
2:2:0.3 | a d d 
3:-1:0.3 | a b e
....

我在命令下运行。

vw -d train.dat --cb 30 -f cb.model --save_resume

这会生成一个文件“cb.model”。现在，假设我有一个如下的测试数据集

| a d d 
| a b e

我想看到概率如下

0.2 0.7 0.1

这些概率的解释是行动 1 应该在 20% 的时间内被选择，行动 2 - 70% 和行动 3 - 10% 的时间。

有没有办法得到这样的东西？

Answer 1

当您使用“--cb K”时，预测是基于 argmax 策略的最佳手臂/动作，这是一个静态策略。

使用“--cb_explore K”时，预测输出包含每个手臂/动作的概率。根据您选择的策略，概率的计算方式不同。