当数据量很大时将数据拟合到机器学习 keras 模型中

use*_*789 2 numpy machine-learning python-3.x keras numpy-ndarray

在使用 keras 的机器学习教程中,训练机器学习模型的代码就是这种典型的单行代码。

model.fit(X_train, 
          Y_train, 
          nb_epoch=5, 
          batch_size = 128, 
          verbose=1, 
          validation_split=0.1)
Run Code Online (Sandbox Code Playgroud)

这似乎很容易,当训练数据X_trainY_train小。X_train并且Y_train是 numpy ndarrays。在实际情况下,训练数据可以达到千兆字节,这可能太大了,甚至无法装入计算机的 RAM。

model.fit()当训练数据太大时如何发送数据?

ixe*_*ion 5

在 Keras 中有一个简单的解决方案。您可以简单地使用 python 生成器,其中您的数据是延迟加载的。如果你有图片,你也可以使用 ImageDataGenerator。

def generate_data(x, y, batch_size):    
    while True:
        batch = []
        for b in range(batch_size):
           batch.append(myDataSlice)

        yield np.array(batch )

model.fit_generator(
generator=generate_data(x, y, batch_size),
steps_per_epoch=num_batches, 
validation_data=list_batch_generator(x_val, y_val, batch_size), 
validation_steps=num_batches_test)
Run Code Online (Sandbox Code Playgroud)