小编Raj*_*tra的帖子

我希望我的模型在多个GPU上运行,共享参数但具有不同批量的数据.

我可以这样做model.fit()吗？还有其他选择吗？

10
推荐指数

1
解决办法

5119
查看次数

假设我有类似的logits

__CODE__

显然,第一个例子中的最后两个和第二个例子中的最后三个被掩盖,不应该影响损失和梯度计算.如何计算此logits和相应标签之间的交叉熵损失？为了理智,这个例子的标签可以是这样的

__CODE__

(一个问题:在logits上的Softmax,然后是log,也适用于被屏蔽的零,并且tf的交叉熵方法也将考虑这些元素的损失.)

(另外,你可以考虑这样的问题:我在批处理中有不同长度的logits,即我的logits分别为eg.1和eg.2的长度为3和2.相同后面是标签.)

8
推荐指数

2
解决办法

1721
查看次数

nlp ×1

小编Raj_tra的帖子