chi*_*t12 9 python apache-spark pyspark databricks
我有一个 python 脚本,其中使用 pandas 来转换/操作我的数据。我知道我有一些“低效”的代码块。我的问题是,如果 pyspark 应该更快,我可以使用 pyspark 而不是 pandas 替换这些块,还是我需要将所有内容都放在 pyspark 中?如果我在 Databricks 中,那么这到底有多重要,因为它已经在 Spark 集群上了?
rch*_*ome 18
如果数据足够小,您可以使用 pandas 来处理它,那么您可能不需要 pyspark。当您的数据量如此之大以至于无法装入一台机器的内存时,Spark 非常有用,因为它可以执行分布式计算。话虽这么说,如果计算足够复杂,可以从大量并行化中受益,那么您可以看到使用 pyspark 的效率提升。与 pandas 相比,我对 pyspark 的 API 更满意,所以无论如何我最终可能会使用 pyspark,但您是否会看到效率提升很大程度上取决于问题。
小智 8
Pandas 在单台机器上运行操作,而 PySpark 在多台机器上运行。如果您正在开发处理较大数据集的机器学习应用程序,PySpark 是最合适的选择,它处理操作的速度比 Pandas 快很多倍(100 倍)。
PySpark 对于处理大型数据集非常高效。但是,您可以在预处理和数据探索后将 Spark 数据帧转换为 Pandas 数据帧,以使用 sklearn 训练机器学习模型。
| 归档时间: |
|
| 查看次数: |
14910 次 |
| 最近记录: |