我正在使用Spark RDD加入两个大数据集.一个数据集非常偏斜,因此很少有执行程序任务需要很长时间才能完成工作.我该如何解决这个问题呢?
join apache-spark
apache-spark ×1
join ×1