许多帖子询问如何将 CAPS LOCK 键映射到 ESC。我知道该怎么做,但是当我这样做时,我会失去大写锁定功能,因为 ESC 仍然映射到转义。我想将转义键交换为大写锁定键(按大写锁定键转义并按转义键大写锁定)。
没有通过 设置重新映射转义键:
Numpy 的 sum 函数返回了正确的预期结果,但默认的 python 的 sum 不是(至少对于 uint8 数据类型不是,这使它更加混乱):
In [1]: import numpy as np
In [2]: x = np.random.randint(2, size = (1000,100))
In [3]: x
Out[3]:
array([[1, 1, 0, ..., 0, 1, 1],
[1, 1, 1, ..., 0, 0, 0],
[1, 1, 0, ..., 1, 0, 1],
...,
[1, 0, 0, ..., 1, 0, 1],
[0, 0, 1, ..., 0, 1, 1],
[1, 1, 0, ..., 1, 1, 1]])
In [4]: np.sum(x)
Out[4]: 50318
In [5]: sum(sum(x))
Out[5]: …Run Code Online (Sandbox Code Playgroud) 我从这个页面知道,有一个选项可以根据使用一些探索策略收集的历史上下文强盗数据来训练上下文强盗大众模型:
VW 包含一个上下文老虎机模块,它允许您根据已收集的上下文老虎机数据优化预测器。换句话说,该模块不实现探索,它假设它只能使用使用探索策略记录的当前可用数据。
它是通过指定--cb和传递格式为action:cost:probability | 的数据来完成的。特点 :
1:2:0.4 | a c
3:0.5:0.2 | b d
4:1.2:0.5 | a b c
2:1:0.3 | b c
3:1.5:0.7 | a d
Run Code Online (Sandbox Code Playgroud)
我的问题是,有没有办法利用不基于上下文老虎机策略--cb(或其他方法)和某种策略评估方法的历史数据?假设操作是根据某些确定性的、非探索性的(编辑:有偏见的)启发式选择的?在这种情况下,我会有action和cost,但我不会有概率(或者它等于 1)。
我尝试了一种方法,我使用探索性方法并假设历史数据已完全标记(为未知奖励分配零奖励),但似乎 PMF 在大多数操作中崩溃为零。