如何使用批处理使 Keras ImageDataGenerator 适合大型数据集

C.S*_*.S. 5 python keras data-augmentation

我想使用 Keras ImageDataGenerator 进行数据增强。为此,我必须使用我的训练数据作为参数在实例化的 ImageDataGenerator 对象上调用 .fit() 函数,如下所示。

image_datagen = ImageDataGenerator(featurewise_center=True, rotation_range=90)
image_datagen.fit(X_train, augment=True)
train_generator = image_datagen.flow_from_directory('data/images')
model.fit_generator(train_generator, steps_per_epoch=2000, epochs=50)
Run Code Online (Sandbox Code Playgroud)

但是,我的训练数据集太大,无法立即加载到内存中。因此,我想使用训练数据的子集分几个步骤来拟合生成器。

有没有办法做到这一点?

我想到的一个潜在解决方案是使用自定义生成器函数加载批量训练数据,并在循环中多次拟合图像生成器。但是,我不确定 ImageDataGenerator 的拟合函数是否可以以这种方式使用,因为它可能会在每种拟合方法上重置。

作为其工作原理的示例:

def custom_train_generator():
    # Code loading training data subsets X_batch
    yield X_batch


image_datagen = ImageDataGenerator(featurewise_center=True, rotation_range=90)
gen = custom_train_generator()

for batch in gen:
    image_datagen.fit(batch, augment=True)

train_generator = image_datagen.flow_from_directory('data/images')
model.fit_generator(train_generator, steps_per_epoch=2000, epochs=50)
Run Code Online (Sandbox Code Playgroud)

Tim*_*lin 5

较新的 TF 版本( >=2.5):

ImageDataGenerator() 已被弃用,取而代之的是:

tf.keras.utils.image_dataset_from_directory

文档中的示例用法:

  tf.keras.utils.image_dataset_from_directory(
    directory,
    labels='inferred',
    label_mode='int',
    class_names=None,
    color_mode='rgb',
    batch_size=32,
    image_size=(256, 256),
    shuffle=True,
    seed=None,
    validation_split=None,
    subset=None,
    interpolation='bilinear',
    follow_links=False,
    crop_to_aspect_ratio=False,
    **kwargs
)
Run Code Online (Sandbox Code Playgroud)

较旧的 TF 版本( <2.5)

ImageDataGenerator()为您提供批量加载数据的可能性;您实际上可以在您的方法中使用fit_generator()参数batch_size,该参数适用于ImageDataGenerator(); 没有必要(如果你愿意的话,只有良好的实践)从头开始编写一个生成器。

重要的提示:

从 TensorFlow 2.1 开始,.fit_generator()已弃用,您应该使用.fit()

示例取自Keras官方文档:

datagen = ImageDataGenerator(
    featurewise_center=True,
    featurewise_std_normalization=True,
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    horizontal_flip=True)

# compute quantities required for featurewise normalization
# (std, mean, and principal components if ZCA whitening is applied)
datagen.fit(x_train)

# TF <= 2.0
# fits the model on batches with real-time data augmentation:
model.fit_generator(datagen.flow(x_train, y_train, batch_size=32),
                    steps_per_epoch=len(x_train) // 32, epochs=epochs)

#TF >= 2.1
model.fit(datagen.flow(x_train, y_train, batch_size=32),
         steps_per_epoch=len(x_train) // 32, epochs=epochs)
Run Code Online (Sandbox Code Playgroud)

我建议阅读这篇关于 ImageDataGenerator 和增强的优秀文章:https://machinelearningmastery.com/how-to-configure-image-data-augmentation-when-training-deep-learning-neural-networks/

问题的解决方案在于这行代码(简单流程或 flow_from_directory):

# prepare iterator
it = datagen.flow(samples, batch_size=1)
Run Code Online (Sandbox Code Playgroud)

要创建自己的 DataGenerator,应该查看此链接(作为起点):https://stanford.edu/~shervine/blog/keras-how-to-generate-data-on-the-fly

重要提示(2):

如果您使用 Tensorflow 中的 Keras(Tensorflow 中的 Keras),那么对于所提供的代码和您查阅的教程,请确保替换导入/神经网络创建片段:

from keras.x.y.z import A
Run Code Online (Sandbox Code Playgroud)

from tensorflow.keras.x.y.z import A
Run Code Online (Sandbox Code Playgroud)

  • 感谢您的回答和文章!我明白了,并不总是需要安装图像生成器本身,因此我可以省略它,因此我不需要加载整个 x_train。然而,我读到,对于某些增强操作(例如缩放),我必须在图像数据生成器上使用 .fit() ,然后才能调用 .flow() 或 .flow_from_directory() 。有没有办法使用“datagen.fit(x_train)”而不必立即加载整个 x_train? (2认同)