小编use*_*142的帖子

我正在处理一个大型Spark DataFrame中的一列数字,我想创建一个新列,它存储该列中出现的唯一数字的聚合列表.

基本上就是functions.collect_set的作用.但是,我只需要聚合列表中最多1000个元素.有没有办法以某种方式将该参数传递给functions.collect_set(),或者在不使用UDAF的情况下以任何其他方式在聚合列表中仅获取最多1000个元素？

由于列很大,我想避免收集所有元素并在之后修剪列表.

谢谢!

14
推荐指数

2
解决办法

2771
查看次数

小编use_142的帖子