May*_*hav 0 apache-spark apache-spark-sql pyspark
我想知道,rdd.unpersist()spark RDD 上的操作成本有多大?存储级别设置是否会影响此操作的性能?任何基准(结果/技术)都会非常有帮助。
unpersist从缓存(内存和磁盘)中释放RDD并删除它所依赖的shuffle文件。为此,它需要向执行者发送一条消息。它应该是您可以使用 RDD 执行的最便宜的操作 - 可能不值得进行基准测试。
另请注意,当 RDD 被垃圾收集时,unpersist会自动调用它。所以无论如何你都无法避免这笔费用。
| 归档时间: |
|
| 查看次数: |
1169 次 |
| 最近记录: |