小编Nan*_*anc的帖子

多个小的 h5 文件或一个巨大的文件之间最好的是什么?

我正在处理巨大的卫星数据,我将这些数据分成小块以提供给深度学习模型。我正在使用 pytorch,这意味着数据加载器可以使用多线程。[设置:python,Ubuntu 18.04]

我找不到任何答案在以下之间的数据访问和存储方面是最好的:

  1. 将所有数据注册到一个巨大的 HDF5 文件中(超过 20Go)
  2. 将其拆分为多个(超过 16 000 个)小的 HDF5 文件(大约 1.4Mo)。

多线程多次访问一个文件有什么问题吗?在另一种情况下,拥有那么多文件会产生影响吗?

multithreading bigdata h5py

6
推荐指数
1
解决办法
1059
查看次数

标签 统计

bigdata ×1

h5py ×1

multithreading ×1