Python API中是否提供Spark SQL UDAF(用户定义的聚合函数)?

ken*_*ntt 13 apache-spark apache-spark-sql spark-dataframe

从Spark 1.5.0开始,似乎可以编写自己的UDAF用于DataFrames上的自定义聚合: Spark 1.5 DataFrame API要点:日期/时间/字符串处理,时间间隔和UDAF

但是,我不清楚Python API是否支持此功能?

小智 2

您无法在 Spark 1.5.0-2.0.0 中定义 Python UDAF。有一个 JIRA 跟踪此功能请求:

“稍后”解决目标,所以它可能不会很快发生。

您可以使用 PySpark 中的 Scala UDAF - Spark 对此进行了描述:如何使用 Scala 或 Java 用户定义函数映射 Python?