Tensorflow 估计器 ValueError:logits 和标签必须具有相同的形状 ((?, 1) vs (?,))

Blu*_*row 23 python keras tensorflow

我对 ML 比较陌生,以为我会从 keras 开始。在这里,我使用二元交叉熵将电影评论分类为正面或负面。因此,当我尝试使用 tensorflow estimator 包装我的 keras 模型时,出现错误:

Tensorflow 估计器 ValueError:logits 和标签必须具有相同的形状 ((?, 1) vs (?,))

我使用 sigmoid 激活作为我的最后一层,我猜我在这里遗漏了一些微不足道的东西。有什么帮助吗?

from tensorflow import keras
import tensorflow as tf
print("Tensorflow {} loaded".format(tf.__version__))
import numpy as np

keras.__version__
from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)
def vectorize_sequences(sequences, dimension=10000):
    # Create an all-zero matrix of shape (len(sequences), dimension)
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.  # set specific indices of results[i] to 1s
    return results.astype('float32')

# Our vectorized training data
x_train = vectorize_sequences(train_data)

# Our vectorized test data
x_test = vectorize_sequences(test_data)

# Our vectorized labels
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

x_val = x_train[:10000]
partial_x_train = x_train[10000:]
y_val = y_train[:10000]
partial_y_train = y_train[10000:]

model = keras.models.Sequential()
model.add(keras.layers.Dense(16, activation='relu', input_shape=(10000,), name='reviews'))
model.add(keras.layers.Dense(16, activation='relu'))
model.add(keras.layers.Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])
estimator_model = keras.estimator.model_to_estimator(keras_model=model)

def input_function(features,labels=None,shuffle=False,epochs=None,batch_size=None):
    input_fn = tf.estimator.inputs.numpy_input_fn(
        x={"reviews_input": features},
        y=labels,
        shuffle=shuffle,
        num_epochs=epochs,
        batch_size=batch_size
    )
    return input_fn

estimator_model.train(input_fn=input_function(partial_x_train, partial_y_train, True,20,512))
score = estimator_model.evaluate(input_function(x_val, labels=y_val))
print(score)
Run Code Online (Sandbox Code Playgroud)

小智 29

如果您正在进行二元分类,请确保最后一个 Dense 层的形状仅为 (None, 1),而不是 None, 2)

tf.keras.layers.Dense(1, activation="sigmoid") # binary activation output
Run Code Online (Sandbox Code Playgroud)


pfm*_*pfm 22

您应该将标签重塑为二维张量(第一个维度将是批次维度,第二个维度是标量标签):

# Our vectorized labels
y_train = np.asarray(train_labels).astype('float32').reshape((-1,1))
y_test = np.asarray(test_labels).astype('float32').reshape((-1,1))
Run Code Online (Sandbox Code Playgroud)


小智 12

我们可以通过在 Dense 层之后添加 Flatten 层来将输出与标签的维度进行匹配来解决这个问题:

model.add(Flatten())
Run Code Online (Sandbox Code Playgroud)

或者添加:

model.add(GlobalAveragePooling2D())
Run Code Online (Sandbox Code Playgroud)

有关完整详细信息,请参阅此 GitHub 问题


小智 7

使用 model.summary() 检查您的网络

您最终需要精简网络以获得与您的类相同的输出。例如,对数字需求和 Dense(10) 的最终输出(数字 0 到 9)进行 OCR。

例如表征狗与猫。最后一层必须有两个输出(0-dog,1-cat)

  • 仅当您使用 softmax + 交叉熵时,您的最后一句话才是正确的。使用 sigmoid + 二元交叉熵,最终的密集层应该有 1 个节点。 (10认同)

小智 6

如果你正在进行二元交叉熵,那么你的数据集可能有 2 个类,并且错误会出现,因为你的标签向量(在测试和训练中)的形式为 [0,1,0,1,1,1,0 ,0,1,...]。要对二进制标签进行 one-hot 编码,可以使用以下函数:Labels = tf.one_hot(Labels, depth=2)