Devlin & Co. 的论文《BERT: Pre-training of Deep Bi Direction Transformers for Language Understanding》针对基础模型大小 110M 参数(即 L=12、H=768、A=12)进行了计算,其中 L = 层数, H = 隐藏大小,A = 自注意力操作的数量。据我所知,神经网络中的参数通常是层之间“权重和偏差”的计数。那么如何根据给定的信息计算出这个值呢?12 768 768*12?
我在一个小数据集样本上尝试了这两种方法,它返回了相同的输出。那么问题来了,scikit的train-test-split方法中的“shuffle”和“random_state”参数有什么区别?
MWE 代码:
X, y = np.arange(10).reshape((5, 2)), range(5)
train_test_split(y, shuffle=False)
Out: [[0, 1, 2], [3, 4]]
train_test_split(y, random_state=0)
Out: [[0, 1, 2], [3, 4]]
Run Code Online (Sandbox Code Playgroud) 我有一个问题,一旦我想注释我的水平条,就会出现一些错误消息:
posx 和 posy 应该是有限值
然后我查看了代码,令人惊讶的是我得到了一些仅在使用hue参数时出现的 nan 值。
代码:
ax = sns.barplot(x="Points", y="Characters", hue="Average Speeds", data=albion_dataset, palette="Set1", dodge=False)
for p in ax.patches:
width = p.get_width()
print(width)
Run Code Online (Sandbox Code Playgroud)
输出:
nan
nan
2.57562
nan
nan
nan
nan
1.526325
nan
...
但是当我删除该hue选项时,没有 nan 并且注释工作完美无缺。数据框本身没有 nan 值。如何解决这个问题,以便我可以使用色调功能。dtypesfloats用于 x 和色调以及objecty。
更新:找到了一种注释条的方法,但现在最后一个条没有注释文本。
i = 0
for p in ax.patches:
ax.annotate("%.4f" % albion_dataset["Average Speeds"][i], (p.get_x() + p.get_width(), p.get_y() + 1.2),
xytext=(5, 10), textcoords='offset points')
print(i)
i += 1
Run Code Online (Sandbox Code Playgroud)
此外,我如何将色调图例中的文本添加到条形图中,因为上面的代码没有考虑色调值的顺序。因此,我在条形图上得到了错误的值。