TensorFlow SparseCategoricalCrossentropy 如何工作？

Question

TensorFlow SparseCategoricalCrossentropy 如何工作？

dat*_*uoc 16 machine-learning deep-learning tensorflow cross-entropy loss-function

我试图理解 TensorFlow 中的这个损失函数，但我不明白。它是SparseCategoricalCrossentropy。所有其他损失函数都需要相同形状的输出和标签，而这个特定的损失函数不需要。

源代码：

import tensorflow as tf;

scce = tf.keras.losses.SparseCategoricalCrossentropy();
Loss = scce(
  tf.constant([ 1,    1,    1,    2   ], tf.float32),
  tf.constant([[1,2],[3,4],[5,6],[7,8]], tf.float32)
);
print("Loss:", Loss.numpy());

Run Code Online (Sandbox Code Playgroud)

错误是：

InvalidArgumentError: Received a label value of 2 which is outside the valid range of [0, 2).  
Label values: 1 1 1 2 [Op:SparseSoftmaxCrossEntropyWithLogits]

Run Code Online (Sandbox Code Playgroud)

如何为损失函数 SparseCategoricalCrossentropy 提供适当的参数？

Answer 1

Gee*_*rtH 23

SparseCategoricalCrossentropy 和 CategoricalCrossentropy 都计算分类交叉熵。唯一的区别在于目标/标签的编码方式。

使用 SparseCategoricalCrossentropy 时，目标由类别的索引（从 0 开始）表示。您的输出形状为 4x2，这意味着您有两个类别。因此，目标应该是条目为 0 或 1 的 4 维向量。例如：

scce = tf.keras.losses.SparseCategoricalCrossentropy();
Loss = scce(
  tf.constant([ 0,    0,    0,    1   ], tf.float32),
  tf.constant([[1,2],[3,4],[5,6],[7,8]], tf.float32))

Run Code Online (Sandbox Code Playgroud)

这与 CategoricalCrossentropy 形成对比，其中标签应该是单热编码的：

cce = tf.keras.losses.CategoricalCrossentropy();
Loss = cce(
  tf.constant([ [1,0]    [1,0],    [1, 0],   [0, 1]   ], tf.float32),
  tf.constant([[1,2],[3,4],[5,6],[7,8]], tf.float32))

Run Code Online (Sandbox Code Playgroud)

当您有很多类别时，SparseCategoricalCrossentropy 更有效。

@AralRoca基于tensorflow页面上的示例，如果设置“from_logits=True”，则不需要指定最后一层的激活（https://www.tensorflow.org/tutorials/images/classification#编译模型）。这应该不重要，但它使它在数值上更加稳定（/sf/answers/4011317691/） (2认同)

Answer 2

Wol*_*ang 14

我想添加一些可能令人困惑的东西。将SparseCategoricalCrossentropy有两个论据都指定很重要。第一个是 from_logits；召回 logits 是尚未通过 Softmax（或 Sigmoid）标准化的网络的输出。第二个是reduction。它通常设置为'auto'，这将正常计算分类交叉熵，即的平均值label*log(pred)。但是将值设置为'none'实际上将为您提供分类交叉熵的每个元素label*log(pred)，其形状为(batch_size)。reduce_mean在这个列表上计算 a会给你与相同的结果reduction='auto'。

# Assuming TF2.x
import tensorflow as tf

model_predictions = tf.constant([[1,2], [3,4], [5,6], [7,8]], tf.float32)
labels_sparse = tf.constant([1, 0, 0, 1 ], tf.float32)
labels_dense = tf.constant([[1,0], [1,0], [1,0], [0,1]], tf.float32)

loss_obj_scc = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True,
    reduction='auto'
)
loss_from_scc = loss_obj_scc(
    labels_sparse,
    model_predictions,
  )


loss_obj_cc = tf.keras.losses.CategoricalCrossentropy(
    from_logits=True,
    reduction='auto'
)
loss_from_cc = loss_obj_cc(
    labels_dense,
    model_predictions,
  )


print(loss_from_scc, loss_from_cc)
>> (<tf.Tensor: shape=(), dtype=float32, numpy=0.8132617>,
 <tf.Tensor: shape=(), dtype=float32, numpy=1.0632616>)

Run Code Online (Sandbox Code Playgroud)

# With `reduction='none'`
loss_obj_scc_red = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True,
    reduction='none')

loss_from_scc_red = loss_obj_scc_red(
    labels_sparse,
    model_predictions,
  )

print(loss_from_scc_red, tf.math.reduce_mean(loss_from_scc_red))

>> (<tf.Tensor: shape=(4,), dtype=float32, numpy=array([0.31326166, 1.3132616 , 
1.3132616 , 0.31326166], dtype=float32)>,
 <tf.Tensor: shape=(), dtype=float32, numpy=0.8132617>)

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年前
查看次数：	11667 次
最近记录：	6 年前