Bas*_*asj 3 python arrays serialization numpy
我想在序列化的未压缩文件(大约6 GB的数据)中存储大约4000个numpy数组(每个1.5 MB).这是一个包含2个小数组的示例:
import numpy
d1 = { 'array1' : numpy.array([1,2,3,4]), 'array2': numpy.array([5,4,3,2]) }
numpy.savez('myarrays', **d1)
d2 = numpy.load('myarrays.npz')
for k in d2:
print d2[k]
Run Code Online (Sandbox Code Playgroud)
它有效,但我想在一步中做同样的事情:
保存时,我希望能够保存10个数组,然后执行其他任务(可能会使用几秒钟),然后编写100个其他数组,然后执行其他操作,然后编写其他50个数组等.
当加载:idem时,我希望能够加载一些数组,然后执行其他任务,然后继续加载.
怎么做这个numpy.savez/ numpy.load?
我不认为你可以用np.savez做到这一点.然而,这是hdf5的完美用例.见:
要么
作为如何在h5py中执行此操作的示例:
h5f = h5py.File('test.h5', 'w')
h5f.create_dataset('array1', data=np.array([1,2,3,4]))
h5f.create_dataset('array2', data=np.array([5,4,3,2]))
h5f.close()
# Now open it back up and read data
h5f = h5py.File('test.h5', 'r')
a = h5f['array1'][:]
b = h5f['array2'][:]
h5f.close()
print a
print b
# [1 2 3 4]
# [5 4 3 2]
Run Code Online (Sandbox Code Playgroud)
当然还有更复杂的方法,通过组合组织数组,添加元数据,在hdf5文件中预先分配空间,然后再填写等等.
| 归档时间: |
|
| 查看次数: |
3352 次 |
| 最近记录: |