小编Lyn*_*ynn的帖子

keras model.fit() 使用 tf.Dataset 对象的可初始化迭代器提供数据

我正在使用 tf.keras API 构建我的 CNN 模型，并使用 tf.Dataset API 为我的模型创建输入管道。来自 mnist 数据集tf.keras.datasets用于测试并通过执行代码在内存中准备：

(train_images,train_labels),(test_images,test_labels) = tf.keras.datasets.mnist.load_data()

Run Code Online (Sandbox Code Playgroud)

还有一些与我的 keras 模型兼容的预处理：

Train_images = np.expand_dims(train_images,3).astype('float')/255.0
Test_images = np.expand_dims(test_images,3).astype('float')/255.0

Train_labels = tf.keras.utils.to_categorical(train_labels)
Test_labels = tf.keras.utils.to_categorical(test_labels)

Run Code Online (Sandbox Code Playgroud)

这些数据作为数组存储在内存中，有两种创建数据集对象的选项。第一个只是使用tf.data.Dataset.from_tensor_slices：

image = tf.data.Dataset.from_tensor_slices((Train_images,Train_labels))

Run Code Online (Sandbox Code Playgroud)

并将得到的对象输入到 model.fit() 中：

model.fit(x=image,steps_per_epoch=1000)

Run Code Online (Sandbox Code Playgroud)

或者通过以下方式输入该数据集的迭代器：

iterator = image.make_one_shot_iterator()

model.fit(x=iterator,steps_per_epoch=1000)

Run Code Online (Sandbox Code Playgroud)

这两个选项都可以正常工作，因为此处名为 image 的数据集是使用内存中的数据创建的。然而，根据这里的导入数据，我们可能希望避免这样做，因为它会多次复制数据并占用内存。因此，另一个选择是基于可初始化迭代器创建这样的数据集对象tf.placeholder：

X = tf.placeholder(tf.float32,shape = [60000,28,28,1])
Y = tf.placeholder(tf.float32,shape = [60000,10])
image2 = tf.data.Dataset.from_tensor_slices((X,Y))
iterator2 = image.make_initializable_iterator()

with tf.Session() as sess:
  sess.run(iterator2.initializer,feed_dict={X:Train_images,Y:Train_labels}
  sess.run(iterator2.get_next())

Run Code Online (Sandbox Code Playgroud)

这种迭代器在使用tf.Session()内存中的数据时工作得很好，并且避免了数据的多个副本。但我找不到让它工作的方法，keras.model.fit()因为你不能真正在那里调用 …

python keras tensorflow

Lyn*_*ynn

2018 10-08

5
推荐指数

1
解决办法

1845
查看次数