keras.utils.np_utils.to_categorical中的MemoryError

Hai*_* FU 5 python keras

我有一个数据集,其输出是46226类别之一.我还有数百万个样本.

但似乎Keras/TensorFlow需要输出的单热编码.

问题是,np_utils.to_categorical(y_indices,num_classes)导致内存不足错误,因为那时我需要一个8000 x 46226矩阵.

我工作的PC有8G内存,当我尝试执行'numpy.zeros((8000,46226))'时,它运行正常.但是当我将y_indices更改为单热编码时,它出现以下错误:

    ------------------------------------------------------------------------
    MemoryError                            Traceback (most recent call last)
    <ipython-input-9-7b9df1cf8cee> in <module>()
    ----> 1 Y_cat = to_categorical(Y, num_classes=nb_classes)

    c:\program files\anaconda3\envs\python35\lib\site-packages\keras\utils\np_utils.py in to_categorical(y, num_classes)
         22     num_classes = np.max(y) + 1
         23     n = y.shape[0]
    ---> 24     categorical = np.zeros((n, num_classes))
         25     categorical[np.arange(n), y] = 1
         26     return categorical

    MemoryError: 
Run Code Online (Sandbox Code Playgroud)

有没有办法让Keras解决这个障碍?如果有人指出如何做到这一点,我会很乐意添加一些代码.

Mat*_*gro 16

您实际上不需要单热编码标签,您可以使用带有sparse_categorical_crossentropy损失的整数标签,它接受整数标签.

这样就不会出现内存不足错误.另一种方法是动态生成发电机(与之配合使用fit_generator)和单热编码标签.

  • 应该有清晰的源代码示例。 (2认同)