Spark用于计算减少任务数量的公式是什么?
我正在运行几个spark-sql查询,reduce任务的数量总是200.这些查询的map任务数量是154.我在Spark 1.4.1上.
这与spark.shuffle.sort.bypassMergeThreshold有关,默认为200
apache-spark apache-spark-sql
apache-spark ×1
apache-spark-sql ×1