小编use*_*142的帖子

有没有办法将限制参数传递给Spark中的functions.collect_set?

我正在处理一个大型Spark DataFrame中的一列数字,我想创建一个新列,它存储该列中出现的唯一数字的聚合列表.

基本上就是functions.collect_set的作用.但是,我只需要聚合列表中最多1000个元素.有没有办法以某种方式将该参数传递给functions.collect_set(),或者在不使用UDAF的情况下以任何其他方式在聚合列表中仅获取最多1000个元素?

由于列很大,我想避免收集所有元素并在之后修剪列表.

谢谢!

aggregate-functions dataframe apache-spark apache-spark-sql

14
推荐指数
2
解决办法
2771
查看次数