小编C.T*_*.T.的帖子

与hdf5文件中的块大小相关的压缩性能

我想问一个关于压缩性能的问题,这与hdf5文件的块大小有关.

我手边有2个hdf5文件,它们具有以下属性.它们都只包含一个数据集,称为"数据".

文件A的"数据":

  1. 类型:HDF5标量数据集
  2. 尺寸数量:2
  3. 尺寸大小:5094125 x 6
  4. 最大.尺寸大小:无限x无限制
  5. 数据类型:64位浮点
  6. 分块:10000 x 6
  7. 压缩:GZIP等级= 7

文件B的"数据":

  1. 类型:HDF5标量数据集
  2. 尺寸数量:2
  3. 尺寸大小:6720 x 1000
  4. 最大.尺寸大小:无限x无限制
  5. 数据类型:64位浮点
  6. Chunking:6000 x 1
  7. 压缩:GZIP等级= 7

文件A的大小:HDF5 ---- 19 MB CSV ----- 165 MB

文件B的大小:HDF5 ---- 60 MB CSV ----- 165 MB

与csv文件相比,它们都显示了对存储数据的强大压缩.但是,文件A的压缩率约为原始csv的10%,而文件B的压缩率仅为原始csv的约30%.

我尝试了不同的块大小使文件B尽可能小,但似乎30%是最佳压缩率.我想问一下,为什么文件A可以实现更大的压缩,而文件B则不能.

如果文件B也可以实现,那么块大小应该是多少?

是否有任何规则来确定HDF5的最佳块大小以用于压缩目的?

谢谢!

compression hdf5 chunking

8
推荐指数
1
解决办法
4547
查看次数

标签 统计

chunking ×1

compression ×1

hdf5 ×1