Mic*_*ael 3 hdf5 python-2.7 pandas
我有一个大型的pandas数据框,其字符串列的字符串大小严重偏斜.大多数行都有长度<20的字符串,但有些行的字符串长度超过2000.
我使用pandas.HDFStorage.append将此数据帧存储在磁盘上并设置min_itemsize = 4000.但是,这种方法非常低效,因为hdf5文件的大小非常大,而且我们知道大多数都是空的.
是否可以为此字符串列的行分配不同的大小?也就是说,将小min_itemsize分配给字符串为short的行,并将大min_itemsize分配给字符串为long的行.
当HDFStore用于存储字符串时,列中字符串的最大长度是特定列的宽度,可以自定义,请参见此处.
有几种选择可用于处理各种情况.压缩可以帮助很多.
In [6]: df = DataFrame({'A' : ['too']*10000})
In [7]: df.iloc[-1] = 'A'*4000
In [8]: df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 0 to 9999
Data columns (total 1 columns):
A 10000 non-null object
dtypes: object(1)
memory usage: 156.2+ KB
Run Code Online (Sandbox Code Playgroud)
这些是固定存储,字符串存储为object类型,因此它不是特别高效; 这些商店也不可用于查询/追加.
In [9]: df.to_hdf('test_no_compression_fixed.h5','df',mode='w',format='fixed')
In [10]: df.to_hdf('test_no_compression_table.h5','df',mode='w',format='table')
Run Code Online (Sandbox Code Playgroud)
表存储非常灵活,但在存储上强制固定大小.
In [11]: df.to_hdf('test_compression_fixed.h5','df',mode='w',format='fixed',complib='blosc')
In [12]: df.to_hdf('test_compression_table.h5','df',mode='w',format='table',complib='blosc')
Run Code Online (Sandbox Code Playgroud)
通常,使用分类表示可提供运行时和存储效率.
In [13]: df['A'] = df['A'].astype('category')
In [14]: df.to_hdf('test_categorical_table.h5','df',mode='w',format='table')
In [15]: df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 0 to 9999
Data columns (total 1 columns):
A 10000 non-null category
dtypes: category(1)
memory usage: 87.9 KB
In [18]: ls -ltr *.h5
-rw-rw-r-- 1162080 Aug 31 06:36 test_no_compression_fixed.h5
-rw-rw-r-- 1088361 Aug 31 06:39 test_compression_fixed.h5
-rw-rw-r-- 40179679 Aug 31 06:36 test_no_compression_table.h5
-rw-rw-r-- 259058 Aug 31 06:39 test_compression_table.h5
-rw-rw-r-- 339281 Aug 31 06:37 test_categorical_table.h5
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2366 次 |
| 最近记录: |