hdf5文件到pandas dataframe

Gra*_*ick 8 python hdf5 pandas

我下载了一个存储在.h5文件中的数据集.我只需保留某些列,并能够操纵其中的数据.

为此,我尝试将其加载到pandas数据帧中.我试过用:

pd.read_hdf(path)
Run Code Online (Sandbox Code Playgroud)

但我得到: No dataset in HDF5 file.

我已经在SO上找到了答案(将条件下的HDF5文件读取到pandas DataFrame)但我不需要条件,答案会增加关于文件编写方式的条件,但我不是文件的创建者所以我可以'对此做任何事情.

我也尝试过使用h5py:

df = h5py.File(path)
Run Code Online (Sandbox Code Playgroud)

但这不容易被操纵,我似乎无法从中获取列(仅使用列的名称df.keys())有关如何执行此操作的任何想法?

小智 7

将它们读入 Pandas 的最简单方法是转换为h5py,然后np.array,然后转换为DataFrame. 它看起来像:

df = pd.DataFrame(np.array(h5py.File(path)['variable_1']))
Run Code Online (Sandbox Code Playgroud)

  • 在这种情况下,“variable_1”代表什么?- 我在打开 .h5 文件时遇到同样的问题 (2认同)

小智 5

Pandas HDF 支持需要非常具体地格式化 HDF 文件。您可以查看/sf/answers/2355088991/了解更多信息。