Databricks - Pyspark 与 Pandas

Question

Databricks - Pyspark 与 Pandas

chi*_*t12 9 python apache-spark pyspark databricks

我有一个 python 脚本，其中使用 pandas 来转换/操作我的数据。我知道我有一些“低效”的代码块。我的问题是，如果 pyspark 应该更快，我可以使用 pyspark 而不是 pandas 替换这些块，还是我需要将所有内容都放在 pyspark 中？如果我在 Databricks 中，那么这到底有多重要，因为它已经在 Spark 集群上了？

Answer 1

rch*_*ome 18

如果数据足够小，您可以使用 pandas 来处理它，那么您可能不需要 pyspark。当您的数据量如此之大以至于无法装入一台机器的内存时，Spark 非常有用，因为它可以执行分布式计算。话虽这么说，如果计算足够复杂，可以从大量并行化中受益，那么您可以看到使用 pyspark 的效率提升。与 pandas 相比，我对 pyspark 的 API 更满意，所以无论如何我最终可能会使用 pyspark，但您是否会看到效率提升很大程度上取决于问题。

Answer 2

小智 8

Pandas 在单台机器上运行操作，而 PySpark 在多台机器上运行。如果您正在开发处理较大数据集的机器学习应用程序，PySpark 是最合适的选择，它处理操作的速度比 Pandas 快很多倍（100 倍）。

PySpark 对于处理大型数据集非常高效。但是，您可以在预处理和数据探索后将 Spark 数据帧转换为 Pandas 数据帧，以使用 sklearn 训练机器学习模型。

归档时间：	4 年，2 月前
查看次数：	14910 次
最近记录：	3 年，1 月前