Hive:有没有更好的方法来对列进行百分比排名？

Question

Hive:有没有更好的方法来对列进行百分比排名？

Cha*_*ley 8 performance hadoop hive rank percentile

目前,为了在蜂巢中列出一个列,我使用的内容如下.我试图按照它们所属的百分比对列中的项进行排名,为每个项指定一个0到1的值.下面的代码指定一个从0到9的值,基本上说一个char_percentile_rank0 的项目在项目的底部10%,而值9的项目在前10%的项目中.有没有更好的方法呢？

select item
    , characteristic
    , case when characteristic <= char_perc[0] then 0
        when characteristic <= char_perc[1] then 1
        when characteristic <= char_perc[2] then 2
        when characteristic <= char_perc[3] then 3
        when characteristic <= char_perc[4] then 4
        when characteristic <= char_perc[5] then 5
        when characteristic <= char_perc[6] then 6
        when characteristic <= char_perc[7] then 7
        when characteristic <= char_perc[8] then 8
        else 9
      end as char_percentile_rank
from (
    select split(item_id,'-')[0] as item
        , split(item_id,'-')[1] as characteristic
        , char_perc
    from (
        select collect_set(concat_ws('-',item,characteristic)) as item_set
            , PERCENTILE(BIGINT(characteristic),array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) as char_perc
        from(
            select item
                , sum(characteristic) as characteristic
            from table
            group by item
        ) t1
    ) t2
    lateral view explode(item_set) explodetable as item_id
) t3

Run Code Online (Sandbox Code Playgroud)

注意:我必须这样做collect_set以避免自连接,因为百分位函数隐式执行group by.

我已经认识到百分位函数非常缓慢(至少在这种用法中).也许手动计算百分位数会更好？

Answer 1

Fuz*_*ree 6

尝试删除一个派生表

select item
    , characteristic
    , case when characteristic <= char_perc[0] then 0
        when characteristic <= char_perc[1] then 1
        when characteristic <= char_perc[2] then 2
        when characteristic <= char_perc[3] then 3
        when characteristic <= char_perc[4] then 4
        when characteristic <= char_perc[5] then 5
        when characteristic <= char_perc[6] then 6
        when characteristic <= char_perc[7] then 7
        when characteristic <= char_perc[8] then 8
        else 9
      end as char_percentile_rank
from (
     select item, characteristic,
         , PERCENTILE(BIGINT(characteristic),array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) over () as char_perc 
     from (
       select item
         , sum(characteristic) as characteristic             
       from table
       group by item            
     ) t1
) t2

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，1 月前
查看次数：	5638 次
最近记录：	10 年前