说,我有一些dask数据帧.我想用它做一些操作,而不是保存到csv并打印它的len.
据我所知,以下代码将使dask计算df两次,我是对的吗?
df = dd.read_csv('path/to/file', dtype=some_dtypes)
#some operations...
df.to_csv("path/to/out/*")
print(len(df))
Run Code Online (Sandbox Code Playgroud)
有可能避免计算两次?
但实际上减少了近6倍的行数