相关疑难解决方法(0)

连接大量HDF5文件

我有大约500个HDF5文件,每个大约1.5 GB.

每个文件都具有相同的精确结构,即7个复合(int,double,double)数据集和可变数量的样本.

现在我想通过连接每个数据集来连接所有这些文件,以便最后我有一个包含7个数据集的750 GB文件.

目前我正在运行一个h5py脚本:

  • 使用无限制的最大数据集创建HDF5文件
  • 按顺序打开所有文件
  • 检查样本数量(因为它是可变的)
  • 调整全局文件的大小
  • 追加数据

这显然需要几个小时,你有关于改善这个的建议吗?

我正在开发一个集群,所以我可以并行使用HDF5,但是我在C编程中不够自己实现一些东西,我需要一个已经编写过的工具.

scientific-computing hdf5 dataset

9
推荐指数
1
解决办法
8144
查看次数

标签 统计

dataset ×1

hdf5 ×1

scientific-computing ×1