来自大型无序csv文件的dask set_index

Jul*_*n C 5 python csv sorting indexing dask

冒着有点跑题的风险,我想展示一个简单的解决方案,用于在 dask 数据框中加载大型 csv 文件,其中可以应用 sorted=True 选项并节省大量处理时间。

我发现在 dask 中执行 set_index 的选项对于我用于学习的玩具集群的大小和文件的大小 (33GB) 是不可行的。

因此,如果您的问题是将大型未排序的 CSV 文件(数十 GB)加载到 dask 数据框中并快速开始执行 groupbys,我的建议是之前使用 unix 命令“sort”对它们进行排序。

排序处理需求可以忽略不计,它不会将您的 RAM 限制推到无法管理的限制之外。您可以定义要运行/排序的并行进程数以及作为缓冲区消耗的 ram。只要你有磁盘空间,这就会摇滚。

这里的技巧是在发出命令之前在您的环境中导出 LC_ALL=C。无论哪种方式,pandas/dask 排序和 unix 排序都会产生不同的结果。

这是我使用的代码

export LC_ALL=C

zcat BigFat.csv.gz |
fgrep -v ( have headers?? take them away)|
sort -key=1,1 -t "," ( fancy multi field sorting/index ? -key=3,3 -key=4,4)|
split -l 10000000 ( partitions ??)
Run Code Online (Sandbox Code Playgroud)

结果准备好了

ddf=dd.read_csv(.....)
ddf.set_index(ddf.mykey,sorted=True)
Run Code Online (Sandbox Code Playgroud)

希望这可以帮助

JC

Jul*_*n C 2

如上所述,我只是将其发布作为我的问题的解决方案。希望对其他人有用。

我并不是说这是最好的、最有效的或更Pythonic的!:-)