Hive中Sortby和orderby查询之间的区别

Mut*_*gam 3 sql

请有人告诉我Hive SQL sort byorder by查询之间的区别

小智 14

Hive支持SORT BY,它对每个reducer的数据进行排序."order by"和"sort by"之间的区别在于前者保证输出中的总顺序,而后者仅保证在reducer中排序.如果有多个减速器,"排序依据"可能会给出部分有序的最终结果.

注意:单个SORT BY和CLUSTER BY之间的区别可能会令人困惑.不同之处在于CLUSTER BY按字段分区,如果有多个reducers分区,则为SORT BY,以便在reducers之间统一分配数据(和加载).

基本上,每个reducer中的数据将根据用户指定的顺序进行排序.以下示例显示

SELECT键,值FROM src SORT BY键ASC,值DESC