我读了论文“弹性分布式数据集,用于内存中群集计算的容错抽象”。作者说,如果丢失了一个分区,我们可以使用血统对其进行重建。但是,原始RDD现在不存在于内存中。那么是否会再次加载基本RDD以重建丢失的RDD分区?
apache-spark rdd
apache-spark ×1
rdd ×1