连接两个大熊猫.HDFStore HDF5文件

Vla*_*mir 9 python hdf5 pytables pandas

这个问题以某种方式与"连接大量HDF5文件"有关.

我有几个巨大的HDF5文件(约20GB压缩),无法适应RAM.它们中的每一个都存储几个pandas.DataFrame相同格式的s和不重叠的索引.

我想将它们连接起来,让一个HDF5文件与所有DataFrame正确连接.一种方法是逐个块地读取它们,然后保存到单个文件中,但实际上需要花费很多时间.

是否有任何特殊工具或方法可以在不迭代文件的情况下执行此操作?

Jef*_*eff 12

请参阅此处的文档odo(以前into).请注意,如果您使用该into库,那么参数顺序已被切换(这是更改名称的动机,以避免混淆!)

你基本上可以这样做:

from odo import odo
odo('hdfstore://path_store_1::table_name',
    'hdfstore://path_store_new_name::table_name')
Run Code Online (Sandbox Code Playgroud)

像这样做多个操作会附加到rhs商店.

这将自动为您执行块操作.