小编the*_*oid的帖子

我读过一些资源，声称 Spark 读取操作通常是惰性的。但我运行了一些在 csv 读取步骤上花费很长时间的作业。然后我读到这篇文章说 csv read 是一个急切的操作[1]。您有比较明确的答案可以参考吗？谢谢你！

\n\n

\n\n

\n
尝试最小化急切操作：为了使管道尽可能可扩展，最好避免将完整数据帧拉入内存的急切操作。我\xe2\x80\x99ve 注意到读取 CSV 是一项急切的操作，我的解决方法是将数据帧保存为 parquet，然后从 parquet 重新加载它以构建更具可扩展性的管道。
\n

4
推荐指数

1
解决办法

2350
查看次数

小编the_oid的帖子