小智 14
Hive支持SORT BY,它对每个reducer的数据进行排序."order by"和"sort by"之间的区别在于前者保证输出中的总顺序,而后者仅保证在reducer中排序.如果有多个减速器,"排序依据"可能会给出部分有序的最终结果.
注意:单个SORT BY和CLUSTER BY之间的区别可能会令人困惑.不同之处在于CLUSTER BY按字段分区,如果有多个reducers分区,则为SORT BY,以便在reducers之间统一分配数据(和加载).
基本上,每个reducer中的数据将根据用户指定的顺序进行排序.以下示例显示
SELECT键,值FROM src SORT BY键ASC,值DESC