小编the*_*oid的帖子

Spark 读取 csv 是惰性操作还是急切操作?

我读过一些资源,声称 Spark 读取操作通常是惰性的。但我运行了一些在 csv 读取步骤上花费很长时间的作业。然后我读到这篇文章说 csv read 是一个急切的操作[1]。您有比较明确的答案可以参考吗?谢谢你!

\n\n

1. https://towardsdatascience.com/a-brief-introduction-to-pyspark-ff4284701873

\n\n
\n

尝试最小化急切操作:为了使管道尽可能可扩展,最好避免将完整数据帧拉入内存的急切操作。我\xe2\x80\x99ve 注意到读取 CSV 是一项急切的操作,我的解决方法是将数据帧保存为 parquet,然后从 parquet 重新加载它以构建更具可扩展性的管道。

\n
\n

apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
2350
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1