蜂巢中的分布式子句

RAV*_*ADA 4 hadoop hive

请解释我或提供一个关于蜂巢中真正分发的内容的链接?它如何控制文件发送到特定的reducer?

Nav*_*mar 14

DISTRIBUTE BY控制地图输出在减速器之间的划分方式.默认情况下,MapReduce计算映射器输出的键上的哈希值,并尝试使用哈希值在可用的reducer之间均匀分布键值对.假设我们希望一起捕获列中每个值的数据.我们可以使用DISTRIBUTE BY来确保每个记录都转到同一个reducer.DISTRIBUTE BY类似于GROUP BY,它控制reducers如何接收行进行处理.请注意,如果它位于同一查询中,则Hive要求DISTRIBUTE BY子句位于SORT BY子句之前.