Nav*_*mar 14
DISTRIBUTE BY控制地图输出在减速器之间的划分方式.默认情况下,MapReduce计算映射器输出的键上的哈希值,并尝试使用哈希值在可用的reducer之间均匀分布键值对.假设我们希望一起捕获列中每个值的数据.我们可以使用DISTRIBUTE BY来确保每个记录都转到同一个reducer.DISTRIBUTE BY类似于GROUP BY,它控制reducers如何接收行进行处理.请注意,如果它位于同一查询中,则Hive要求DISTRIBUTE BY子句位于SORT BY子句之前.