什么时候创建和销毁/删除Spark RDD块?

nit*_*adi 9 apache-spark spark-streaming rdd

RDD执行程序选项卡中的Spark UI中有一个名为blocks 的列.一个观察结果是,对于RDD从Kafka流式传输消息的特定流式传输作业,块的数量不断增加.

某些执行程序被自动删除,并且应用程序在长时间运行后会因大量RDD块而变慢.DStreams并且RDDs不会在任何地方手动持久化.

如果有人解释何时创建这些块以及删除块的基础(是否有需要修改的参数?),那将是一个很大的帮助.

Eug*_*kin 5

Spark UI 的很好的解释是这样的。RDD 块可以表示缓存的 RDD 分区、中间 shuffle 输出、广播等。请查看本书的 BlockManager部分