我想用bcolz将pandas数据帧保存到文件中.
我试过了:
import bcolz
import pandas as pd
df = pd.read_csv(open("mydata.csv", 'rb'), delimiter='\t')
ct = bcolz.ctable.fromdataframe(df)
Run Code Online (Sandbox Code Playgroud)
之后,ct包含压缩的数据帧,但我找不到如何将其保存到文件中.
您只需在数据框中读取时指定创建表的位置,如下所示:
import bcolz
import pandas as pd
df = pd.read_csv(open("mydata.csv", 'rb'), delimiter='\t')
ct = bcolz.ctable.fromdataframe(df, rootdir='dataframe.bcolz')
Run Code Online (Sandbox Code Playgroud)
小智 3
您可以将 bcolz 与持久数据容器一起使用,其方式与内存中的容器完全相同。您可能想看看本教程,它使用 pandas/HDF5、纯 PyTables、SQLite 和 bcolz 处理磁盘上的数据集:
https://github.com/FrancescAlted/EuroPython2015/blob/master/4-On-Disk-Tables.ipynb