ken*_*ntt 13 apache-spark apache-spark-sql spark-dataframe
从Spark 1.5.0开始,似乎可以编写自己的UDAF用于DataFrames上的自定义聚合: Spark 1.5 DataFrame API要点:日期/时间/字符串处理,时间间隔和UDAF
但是,我不清楚Python API是否支持此功能?
小智 2
您无法在 Spark 1.5.0-2.0.0 中定义 Python UDAF。有一个 JIRA 跟踪此功能请求:
“稍后”解决目标,所以它可能不会很快发生。
您可以使用 PySpark 中的 Scala UDAF - Spark 对此进行了描述:如何使用 Scala 或 Java 用户定义函数映射 Python?