相关疑难解决方法(0)

在Spark SQL中使用collect_list和collect_set

根据文档,这些collect_setcollect_list函数应该在Spark SQL中可用.但是,我无法让它发挥作用.我正在使用Docker镜像运行Spark 1.6.0 .

我想在Scala中这样做:

import org.apache.spark.sql.functions._ 

df.groupBy("column1") 
  .agg(collect_set("column2")) 
  .show() 
Run Code Online (Sandbox Code Playgroud)

并在运行时收到以下错误:

Exception in thread "main" org.apache.spark.sql.AnalysisException: undefined function collect_set; 
Run Code Online (Sandbox Code Playgroud)

也尝试使用它pyspark,但它也失败了.文档声明这些函数是Hive UDAF的别名,但我无法想出启用这些函数.

如何解决这个问题?感谢名单!

hive apache-spark apache-spark-sql

15
推荐指数
1
解决办法
2万
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

hive ×1