我正在开发这个项目,其中所有数据都经过预处理并准备好作为 TensorFlow 数据集,如下所示:
<MapDataset形状:{input_ids:(128,),input_mask:(128,),label_ids:(),segment_ids:(128,)},类型:{input_ids:tf.int64,input_mask:tf.int64,label_ids:tf .int64,segment_ids:tf.int64}>
我的脚本位于 PyTorch 中,并接受一个 Dataset 对象,如下所示:
Dataset({
features: [
'attention_mask',
'input_ids',
'label',
'sentence',
'token_type_ids'
],
num_rows: 12
})
Run Code Online (Sandbox Code Playgroud)
有什么办法可以将一种转换为另一种吗?我对这两个 API 都很陌生,所以不太清楚它们是如何工作的。我可以将其中一种转换为另一种吗?
我有一本已经完全预处理的字典,可以输入到 BERT 模型中。然而,我很难将其放入 tf.dataset 中。这就是我的数据集的一个元素:
print(dataset[0])
{'input_ids': <tf.Tensor: shape=(128,), dtype=int64, numpy= array([ 101, 171, 112, 2537, 12293, 131, 11250, 118, 118,
2537, 12293, 131, 11250, 1110, 1126, 1237, 1778, 1326,
1687, 1111, 5957, 1398, 11737, 1118, 8129, 14399, 1105,
3230, 9426, 27277, 119, 1135, 1110, 1103, 1148, 1326,
1872, 4418, 1111, 1115, 1555, 117, 1105, 1103, 1148,
2537, 12293, 1326, 1290, 2537, 12293, 131, 9892, 4803,
1107, 1478, 119, 9617, 4986, 170, 4967, 1196, 1103,
1958, 1104, 1103, 1560, 2537, …Run Code Online (Sandbox Code Playgroud) 我有以下箱形图,它为每个框绘制了一些具有不同平均值和中值的值;我想知道是否有任何方法来标记它们,以便它们出现在图形图例上(因为当前的箱线图绘制了一条橙色线表示中位数,一个蓝色点表示平均值,并且不太清楚哪个是哪个)?还有一种方法可以为这些子图制作一个图例,而不是为每个子图制作一个图例,因为它们本质上是相同的对象,只是不同的数据?
这是其中一个子图的代码示例,其他子图相同但具有不同的数据:
fig = plt.figure()
xlim = (4, 24)
ylim = (0, 3700)
plt.subplot(1,5,5)
x_5_diff = {5: [200, 200, 291, 200, 291, 200, 291, 200, 291, 200, 291, 200, 291, 200, 291],
7: [161, 161, 179, 161, 179, 161, 179, 161, 179, 161, 179, 161, 179, 161, 179],
9: [205, 205, 109, 205, 109, 205, 109, 205, 109, 205, 109, 205, 109, 205, 109],
11: [169, 169, 95, 169, 95, 169, 95, 169, 95, 169, 95, 169, 95, 169, 95], …Run Code Online (Sandbox Code Playgroud) dataset ×2
python ×2
tensorflow ×2
boxplot ×1
keras ×1
matplotlib ×1
preprocessor ×1
pytorch ×1