我正在处理一个大型Spark DataFrame中的一列数字,我想创建一个新列,它存储该列中出现的唯一数字的聚合列表.
基本上就是functions.collect_set的作用.但是,我只需要聚合列表中最多1000个元素.有没有办法以某种方式将该参数传递给functions.collect_set(),或者在不使用UDAF的情况下以任何其他方式在聚合列表中仅获取最多1000个元素?
由于列很大,我想避免收集所有元素并在之后修剪列表.
谢谢!
aggregate-functions dataframe apache-spark apache-spark-sql
aggregate-functions ×1
apache-spark ×1
apache-spark-sql ×1
dataframe ×1