小编Ech*_*che的帖子

BERT模型的参数个数是如何计算的?

Devlin & Co. 的论文《BERT: Pre-training of Deep Bi Direction Transformers for Language Understanding》针对基础模型大小 110M 参数(即 L=12、H=768、A=12)进行了计算,其中 L = 层数, H = 隐藏大小,A = 自注意力操作的数量。据我所知,神经网络中的参数通常是层之间“权重和偏差”的计数。那么如何根据给定的信息计算出这个值呢?12 768 768*12?

nlp neural-network bert-language-model

7
推荐指数
1
解决办法
2万
查看次数

训练测试拆分中 Shuffle 和 Random_State 之间的区别?

我在一个小数据集样本上尝试了这两种方法,它返回了相同的输出。那么问题来了,scikit的train-test-split方法中的“shuffle”和“random_state”参数有什么区别?

MWE 代码:

X, y = np.arange(10).reshape((5, 2)), range(5)
train_test_split(y, shuffle=False)

Out: [[0, 1, 2], [3, 4]]

train_test_split(y, random_state=0)

Out: [[0, 1, 2], [3, 4]]

Run Code Online (Sandbox Code Playgroud)

python scikit-learn

5
推荐指数
1
解决办法
1万
查看次数

如何在水平 Seaborn 条形图上注释文本?

我有一个问题,一旦我想注释我的水平条,就会出现一些错误消息:

posx 和 posy 应该是有限值

然后我查看了代码,令人惊讶的是我得到了一些仅在使用hue参数时出现的 nan 值。

代码:

ax = sns.barplot(x="Points", y="Characters", hue="Average Speeds", data=albion_dataset, palette="Set1", dodge=False)
for p in ax.patches:
    width = p.get_width()
    print(width)
Run Code Online (Sandbox Code Playgroud)

输出:
nan
nan
2.57562
nan
nan
nan
nan
1.526325
nan
...

但是当我删除该hue选项时,没有 nan 并且注释工作完美无缺。数据框本身没有 nan 值。如何解决这个问题,以便我可以使用色调功能。dtypesfloats用于 x 和色调以及objecty。

更新:找到了一种注释条的方法,但现在最后一个条没有注释文本。

i = 0
for p in ax.patches:
    ax.annotate("%.4f" % albion_dataset["Average Speeds"][i], (p.get_x() + p.get_width(), p.get_y() + 1.2),
            xytext=(5, 10), textcoords='offset points')
    print(i)
    i += 1
Run Code Online (Sandbox Code Playgroud)

此外,我如何将色调图例中的文本添加到条形图中,因为上面的代码没有考虑色调值的顺序。因此,我在条形图上得到了错误的值。

python pandas seaborn

2
推荐指数
1
解决办法
2120
查看次数