我想知道我是否可以使用 dask 代替 Pandas。我可能面临哪些问题?
1)我猜对于较小的数据集,dask 会比 Pandas 慢。我对此没有意见,因为有时我不知道数据的大小,也不知道服务器配置。
2)我将不得不学习稍微不同的语法(例如计算)
我会遇到 dask 数据框不能做熊猫数据框可以做的事情的情况吗?
这是一个非常广泛的问题。一般来说,我建议参考dask.dataframe 文档。
Dask.dataframe 没有实现所有的熊猫。这包括以下类型的操作:
但是,由于 dask 数据帧只是许多小数据帧的集合,因此您通常可以在简单的情况下绕过其中的一些限制。