我正在为深度学习创建窗口数据的数据集。我将数据生成为 numpy 数组,其中 4 个形状为 (141038, 360) 的数组和 1 个形状为 (141038, ) 的标签的数组。我将数组保存在 npz 文件中,但文件大小太大,达到 1.5 GB。我是 python 和编程新手,所以不知道文件大小应该有多大。不过,我将数组转换为 Pandas 数据帧,内存使用量在相同范围内。问题是我有 6 个 9 GB 的文件,可能还有另一个重叠的数据集,该数据集大 7 倍,因此可能有 63 GB。
这样的文件大小是现实的还是我做错了什么?(这只是一个带有一些数字的文件而不是游戏)
是否有另一种格式可以以更少的内存使用来保存我的数组?(我尝试了 HFD5 但我得到了相同的文件大小)
我尝试更改数据类型,它稍微减小了大小。(3 个数组 (f8), 1 (int8), 1 (uint8)) 是否还有其他数据类型可以进一步减小大小?对于 0/1 值,是否有另一种数据类型比 (uint) 更有效?
对于浮点数组,如果我降低精度,会有帮助吗?或者还有另一种方法可以减小它们的大小?
我有一些文件填充了零填充,一些文件填充了边缘填充,其他文件填充了插值。然而,所有文件几乎具有相同的大小,带有零填充的文件不应该具有较小的大小吗?