Dask就地替换熊猫?

sha*_*nuo 3 dask

我想知道我是否可以使用 dask 代替 Pandas。我可能面临哪些问题?

1)我猜对于较小的数据集,dask 会比 Pandas 慢。我对此没有意见,因为有时我不知道数据的大小,也不知道服务器配置。

2)我将不得不学习稍微不同的语法(例如计算)

我会遇到 dask 数据框不能做熊猫数据框可以做的事情的情况吗?

MRo*_*lin 5

这是一个非常广泛的问题。一般来说,我建议参考dask.dataframe 文档

Dask.dataframe 没有实现所有的熊猫。这包括以下类型的操作:

  1. 变异操作
  2. 难以完全并行执行的操作,如中值,(尽管近似解经常存在,如近似分位数)
  3. 迭代数据帧的行
  4. API 的小角落,没有人费心去复制。

但是,由于 dask 数据帧只是许多小数据帧的集合,因此您通常可以在简单的情况下绕过其中的一些限制。