如何使用Python Dataframe API在Apache Spark中找到中位数？

Question

如何使用Python Dataframe API在Apache Spark中找到中位数？

gen*_*nch 1 python median apache-spark pyspark

Pyspark API提供除中位数之外的许多聚合函数.Spark 2带有approxQuantile,它给出近似的分位数,但精确的中位数计算起来非常昂贵.是否有更多Pyspark计算Spark Dataframe中一列值的中位数的方法？

Answer 1

以下是使用Python中的Dataframe API(Spark 1.6 +)的示例实现.

import pyspark.sql.functions as F
import numpy as np
from pyspark.sql.types import FloatType

Run Code Online (Sandbox Code Playgroud)

假设我们在"工资"火花数据框架中为客户提供月薪,例如:

月| customer_id | 薪水

我们希望在整个月内找到每位客户的中位数工资

步骤1:编写用户定义的函数来计算中位数

def find_median(values_list):
    try:
        median = np.median(values_list) #get the median of values in a list in each row
        return round(float(median),2)
    except Exception:
        return None #if there is anything wrong with the given values

median_finder = F.udf(find_median,FloatType())

Run Code Online (Sandbox Code Playgroud)

第2步:通过将工资列收集到每行的工资列表中来汇总工资列:

salaries_list = salaries.groupBy("customer_id").agg(F.collect_list("salary").alias("salaries"))

Run Code Online (Sandbox Code Playgroud)

步骤3:在薪水栏上调用median_finder udf,并将中值添加为新列

salaries_list = salaries_list.withColumn("median",median_finder("salaries"))

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，2 月前
查看次数：	6664 次
最近记录：	7 年，11 月前