RDD执行程序选项卡中的Spark UI中有一个名为blocks 的列.一个观察结果是,对于RDD从Kafka流式传输消息的特定流式传输作业,块的数量不断增加.
RDD
某些执行程序被自动删除,并且应用程序在长时间运行后会因大量RDD块而变慢.DStreams并且RDDs不会在任何地方手动持久化.
DStreams
RDDs
如果有人解释何时创建这些块以及删除块的基础(是否有需要修改的参数?),那将是一个很大的帮助.
apache-spark spark-streaming rdd
apache-spark ×1
rdd ×1
spark-streaming ×1