小编day*_*man的帖子

Spark - Shuffle读取被阻止的时间

最近我一直在调整一些大型,重复的重型工作的表现.看一下spark UI,我注意到了一个名为"Shuffle Read Blocked Time"的选项,在额外的指标部分下面.

对于大量任务,这种"随机读取阻塞时间"似乎占任务持续时间的50%以上.

虽然我可以直觉了解这意味着什么,我找不到任何解释它实际代表什么的文档.毋庸置疑,我也未能找到任何有关缓解策略的资源.

任何人都可以提供一些有关如何减少随机读取阻塞时间的见解吗?

apache-spark apache-spark-sql pyspark

6
推荐指数
1
解决办法
1562
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1