小编Ven*_*kam的帖子

为什么Spark shuffle将中间数据存储在磁盘上？

为什么spark在shuffle期间存储在磁盘上的中间数据？我试图理解为什么它不能存储在内存中.写入内存有哪些挑战？

是否正在完成将其写入Memory的工作？

shuffle apache-spark

Ven*_*kam

2015 08-27

7
推荐指数

1
解决办法

1431
查看次数

在运行HIVE Join查询时,Reducers停止了66.68%的工作

试图加入6个表,每个表大约有500万行.尝试加入帐户号码,该帐号在所有表格中按升序排序.地图任务成功完成,减速机停止工作在66.68%.尝试增加减少数量的选项,并尝试其他选项设置hive.auto.convert.join = true; 并设置hive.hashtable.max.memory.usage = 0.9; 并设置hive.smalltable.filesize = 25000000L; 但结果是一样的.尝试少量记录(如5000行),查询工作得很好.

请建议可以在这里做些什么来使它工作.

hadoop hive join mapreduce

Ven*_*kam

2013 01-05

5
推荐指数

1
解决办法

3240
查看次数