Vowpal Wabbit - 如何从测试样本的上下文老虎机模型中获得预测概率

Jen*_*won 5 vowpalwabbit

给定经过训练的上下文老虎机模型,如何检索测试样本的预测向量?

例如,假设我有一个名为“train.dat”的火车集,其中包含格式如下的行

1:-1:0.3 | a b c  # <action:cost:probability | features> 
2:2:0.3 | a d d 
3:-1:0.3 | a b e
....
Run Code Online (Sandbox Code Playgroud)

我在命令下运行。

vw -d train.dat --cb 30 -f cb.model --save_resume
Run Code Online (Sandbox Code Playgroud)

这会生成一个文件“cb.model”。现在,假设我有一个如下的测试数据集

| a d d 
| a b e
Run Code Online (Sandbox Code Playgroud)

我想看到概率如下

0.2 0.7 0.1
Run Code Online (Sandbox Code Playgroud)

这些概率的解释是行动 1 应该在 20% 的时间内被选择,行动 2 - 70% 和行动 3 - 10% 的时间。

有没有办法得到这样的东西?

小智 5

当您使用“--cb K”时,预测是基于 argmax 策略的最佳手臂/动作,这是一个静态策略。

使用“--cb_explore K”时,预测输出包含每个手臂/动作的概率。根据您选择的策略,概率的计算方式不同。