给定经过训练的上下文老虎机模型,如何检索测试样本的预测向量?
例如,假设我有一个名为“train.dat”的火车集,其中包含格式如下的行
1:-1:0.3 | a b c # <action:cost:probability | features>
2:2:0.3 | a d d
3:-1:0.3 | a b e
....
Run Code Online (Sandbox Code Playgroud)
我在命令下运行。
vw -d train.dat --cb 30 -f cb.model --save_resume
Run Code Online (Sandbox Code Playgroud)
这会生成一个文件“cb.model”。现在,假设我有一个如下的测试数据集
| a d d
| a b e
Run Code Online (Sandbox Code Playgroud)
我想看到概率如下
0.2 0.7 0.1
Run Code Online (Sandbox Code Playgroud)
这些概率的解释是行动 1 应该在 20% 的时间内被选择,行动 2 - 70% 和行动 3 - 10% 的时间。
有没有办法得到这样的东西?
小智 5
当您使用“--cb K”时,预测是基于 argmax 策略的最佳手臂/动作,这是一个静态策略。
使用“--cb_explore K”时,预测输出包含每个手臂/动作的概率。根据您选择的策略,概率的计算方式不同。
| 归档时间: |
|
| 查看次数: |
994 次 |
| 最近记录: |