小编elf*_*orr的帖子

将dask数据帧保存到csv并找出其长度而不计算两次

说,我有一些dask数据帧.我想用它做一些操作,而不是保存到csv并打印它的len.

据我所知,以下代码将使dask计算df两次,我是对的吗?

df = dd.read_csv('path/to/file', dtype=some_dtypes)
#some operations...
df.to_csv("path/to/out/*")
print(len(df))
Run Code Online (Sandbox Code Playgroud)

有可能避免计算两次?

UPD.当我使用@mdurant的解决方案时会发生这种情况 在此输入图像描述

但实际上减少了近6倍的行数

在此输入图像描述

python dataframe dask

3
推荐指数
1
解决办法
2889
查看次数

标签 统计

dask ×1

dataframe ×1

python ×1