有人可以解释所有这些交叉熵损失之间的差异吗?keras正在谈论
而tensorflow有
(还提出了一个问题:是否有没有logits的交叉熵类型?)
他们之间有什么不同和关系?它们的典型应用是什么?数学背景是什么?是否应该知道其他交叉熵类型?
machine-learning
machine-learning ×1