Dask Dataframe:获取行数吗?

usb*_*ter 7 python dataframe dask

一个简单的问题:我在dask中有一个数据框,其中包含约3亿条记录。我需要知道数据框包含的确切行数。是否有捷径可寻?

当我尝试运行时,dataframe.x.count().compute()它似乎试图将整个数据加载到RAM中,因为RAM没有空间并且会崩溃。

Cod*_*ior 7

# ensure small enough block size for the graph to fit in your memory
ddf = dask.dataframe.read_csv('*.csv', blocksize="10MB") 
ddf.shape[0].compute()
Run Code Online (Sandbox Code Playgroud)

文档

blocksize <str, int or None> 可选 分割较大文件的字节数。默认值是根据可用物理内存和内核数计算的,最大为 64MB。可以是像 64000000` 这样的数字或像“64MB”这样的字符串。如果没有,则为每个文件使用单个块。