最近我一直在调整一些大型,重复的重型工作的表现.看一下spark UI,我注意到了一个名为"Shuffle Read Blocked Time"的选项,在额外的指标部分下面.
对于大量任务,这种"随机读取阻塞时间"似乎占任务持续时间的50%以上.
虽然我可以直觉了解这意味着什么,我找不到任何解释它实际代表什么的文档.毋庸置疑,我也未能找到任何有关缓解策略的资源.
任何人都可以提供一些有关如何减少随机读取阻塞时间的见解吗?
apache-spark apache-spark-sql pyspark
apache-spark ×1
apache-spark-sql ×1
pyspark ×1