如何在HDF5上限制pandas查询的大小,以便它不会超过RAM限制？

Question

如何在HDF5上限制pandas查询的大小,以便它不会超过RAM限制？

Sha*_*ang 6 python hdf5 pytables dataframe pandas

假设我有一个pandas Dataframe

import pandas as pd

df = pd.DataFrame()

df

   Column1    Column2
0  0.189086 -0.093137
1  0.621479  1.551653
2  1.631438 -1.635403
3  0.473935  1.941249
4  1.904851 -0.195161
5  0.236945 -0.288274
6 -0.473348  0.403882
7  0.953940  1.718043
8 -0.289416  0.790983
9 -0.884789 -1.584088
........

Run Code Online (Sandbox Code Playgroud)

查询的一个例子是 df.query('Column1 > Column2')

假设您想限制此查询的保存,因此对象不是那么大.是否有"熊猫"的方法来实现这一目标？

我的问题主要是用pandas查询HDF5对象.HDF5对象可能比RAM大得多,因此查询可能比RAM大.

# file1.h5 contains only one field_table/key/HDF5 group called 'df'
store = pd.HDFStore('file1.h5')

# the following query could be too large 
df = store.select('df',columns=['column1', 'column2'], where=['column1==5'])

Run Code Online (Sandbox Code Playgroud)

是否有pandas/Pythonic方法阻止用户执行超过一定大小的查询？

Answer 1

Max*_*axU 3

chunksize以下是调用时如何使用参数的小演示HDFStore.select()：

for chunk in store.select('df', columns=['column1', 'column2'],
                          where='column1==5', chunksize=10**6):
    # process `chunk` DF

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，4 月前
查看次数：	306 次
最近记录：	9 年，4 月前