我有大约500个HDF5文件,每个大约1.5 GB.
每个文件都具有相同的精确结构,即7个复合(int,double,double)数据集和可变数量的样本.
现在我想通过连接每个数据集来连接所有这些文件,以便最后我有一个包含7个数据集的750 GB文件.
目前我正在运行一个h5py脚本:
这显然需要几个小时,你有关于改善这个的建议吗?
我正在开发一个集群,所以我可以并行使用HDF5,但是我在C编程中不够自己实现一些东西,我需要一个已经编写过的工具.
scientific-computing hdf5 dataset
dataset ×1
hdf5 ×1
scientific-computing ×1