pyspark聚合，同时找到组的第一个值

Question

pyspark聚合，同时找到组的第一个值

Y_K*_*_KL 4 python apache-spark apache-spark-sql pyspark

假设我有 5 TB 的数据，具有以下架构，并且我正在使用 Pyspark。

| id | date | Month | KPI_1 | ... | KPI_n

Run Code Online (Sandbox Code Playgroud)

对于 90% 的 KPI，我只需要知道（id，月份）级别的总和/最小值/最大值聚合。对于剩下的 10%，我需要知道基于日期的第一个值。

对我来说，一种选择是使用window. 例如，我可以做

from pyspark.sql import Window
import pyspark.sql.functions as F

w = Window.partitionBy("id", "Month").orderBy(F.desc("date"))

# for the 90% kpi
agg_df = df.withColumn("kpi_1", F.sum("kpi_1").over(w))
agg_df = agg_df.withColumn("kpi_2", F.max("kpi_2").over(w))
agg_df = agg_df.withColumn("kpi_3", F.min("kpi_3").over(w))
...

# Select last row for each window to get last accumulated sum for 90% kpis and last value for 10% kpi (which is equivalent to first value if ranked ascending). 

# continue process agg_df with filters based on sum/max/min values of 90% KIPs.

Run Code Online (Sandbox Code Playgroud)

但我不确定如何选择每个窗口的最后一行。有没有人有任何建议，或者是否有更好的聚合方法？

Answer 1

wer*_*ner 9

假设我们有这些数据

+---+----------+-------+-----+-----+
| id|      date|  month|kpi_1|kpi_2|
+---+----------+-------+-----+-----+
|  1|2000-01-01|2000-01|    1|  100|
|  1|2000-01-02|2000-01|    2|  200|
|  1|2000-01-03|2000-01|    3|  300|
|  1|2000-01-04|2000-01|    4|  400|
|  1|2000-01-05|2000-01|    5|  500|
|  1|2000-02-01|2000-02|   10|   11|
|  1|2000-02-02|2000-02|   20|   21|
|  1|2000-02-03|2000-02|   30|   31|
|  1|2000-02-04|2000-02|   40|   41|
+---+----------+-------+-----+-----+

Run Code Online (Sandbox Code Playgroud)

我们想要计算每组的最小值、最大值和总和kpi_1，并得到最后的值。kpi_2

可以通过按和kpi_1对数据进行分组来获取的最小值、最大值和总和。Spark >= 3.0.0 max_by可用于获取的最新值：idmonth kpi_2

df_avg = df \ .groupBy("id","month") \ .agg(F.sum("kpi_1"), F.min("kpi_1"), F.max("kpi_1"), F.expr("max_by(kpi_2, date)")) df_avg.show()
Run Code Online (Sandbox Code Playgroud)
印刷

+---+-------+----------+----------+----------+-------------------+ | id| month|sum(kpi_1)|min(kpi_1)|max(kpi_1)|max_by(kpi_2, date)| +---+-------+----------+----------+----------+-------------------+ | 1|2000-02| 100| 10| 40| 41| | 1|2000-01| 15| 1| 5| 500| +---+-------+----------+----------+----------+-------------------+
Run Code Online (Sandbox Code Playgroud)
对于Spark 版本 < 3.0.0 max_by不可用，因此获取kpi_2每个组的最后一个值更加困难。第一个想法可能是在降序排列的数据帧上使用聚合函数first() 。一个简单的测试给了我正确的结果，但不幸的是文档指出“该函数是不确定的，因为它的结果取决于行的顺序，而行的顺序在洗牌后可能是不确定的”。

获取最后一个值的更好方法kpi_2是使用问题中所示的窗口。由于窗口函数row_number()可以工作：

w = Window.partitionBy("id", "Month").orderBy(F.desc("date")) df_first = df.withColumn("row_number", F.row_number().over(w)).where("row_number = 1")\ .drop("row_number") \ .select("id", "month", "KPI_2") df_first.show()
Run Code Online (Sandbox Code Playgroud)
印刷

+---+-------+-----+ | id| month|KPI_2| +---+-------+-----+ | 1|2000-02| 41| | 1|2000-01| 500| +---+-------+-----+
Run Code Online (Sandbox Code Playgroud)
连接第一部分（没有max_by列）和第二部分给出了所需的结果：

df_result = df_avg.join(df_first, ['id', 'month']) df_result.show()
Run Code Online (Sandbox Code Playgroud)
印刷

+---+-------+----------+----------+----------+-----+ | id| month|sum(kpi_1)|min(kpi_1)|max(kpi_1)|KPI_2| +---+-------+----------+----------+----------+-----+ | 1|2000-02| 100| 10| 40| 41| | 1|2000-01| 15| 1| 5| 500| +---+-------+----------+----------+----------+-----+
Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，7 月前
查看次数：	11453 次
最近记录：	4 年，5 月前