Spark RDD 上的非持久化操作的成本有多大？

Question

我想知道，rdd.unpersist()spark RDD 上的操作成本有多大？存储级别设置是否会影响此操作的性能？任何基准（结果/技术）都会非常有帮助。

Answer 1

unpersist从缓存（内存和磁盘）中释放RDD并删除它所依赖的shuffle文件。为此，它需要向执行者发送一条消息。它应该是您可以使用 RDD 执行的最便宜的操作 - 可能不值得进行基准测试。

另请注意，当 RDD 被垃圾收集时，unpersist会自动调用它。所以无论如何你都无法避免这笔费用。