相关疑难解决方法(0)

spark.sql.shuffle.partitions的最佳值应该是什么,或者在使用Spark SQL时如何增加分区？

嗨,我实际上使用Spark SQL hiveContext.sql(),它使用查询组,我遇到了OOM问题.因此,考虑将spark.sql.shuffle.partitions200的默认值增加到1000,但它没有帮助.请纠正我,如果我错了,这个分区将共享数据shuffle load,所以分区更少数据保持.请指导我是Spark新手.我正在使用Spark 1.4.0,我有大约1TB的未压缩数据,可以使用hiveContext.sql()group by queries 进行处理.

apache-spark apache-spark-sql

Ume*_*cha

2015 09-02

36
推荐指数

2
解决办法

3万
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

spark.sql.shuffle.partitions的最佳值应该是什么,或者在使用Spark SQL时如何增加分区？

标签 统计

标签统计