usb*_*ter 7 python dataframe dask
一个简单的问题:我在dask中有一个数据框,其中包含约3亿条记录。我需要知道数据框包含的确切行数。是否有捷径可寻?
当我尝试运行时,dataframe.x.count().compute()它似乎试图将整个数据加载到RAM中,因为RAM没有空间并且会崩溃。
# ensure small enough block size for the graph to fit in your memory
ddf = dask.dataframe.read_csv('*.csv', blocksize="10MB")
ddf.shape[0].compute()
Run Code Online (Sandbox Code Playgroud)
从文档:
blocksize <str, int or None> 可选 分割较大文件的字节数。默认值是根据可用物理内存和内核数计算的,最大为 64MB。可以是像 64000000` 这样的数字或像“64MB”这样的字符串。如果没有,则为每个文件使用单个块。
| 归档时间: |
|
| 查看次数: |
3386 次 |
| 最近记录: |