如何在 PySpark 的一天内累计聚合超过“1 小时”的窗口

Ste*_*ios 3 python apache-spark apache-spark-sql pyspark

我有一个如下所示的 Spark DataFrame:

+---------+--------------------------+
|group_id |event_time                |
+---------+--------------------------+
|XXXX     |2017-10-25 14:47:02.717013|
|XXXX     |2017-10-25 14:47:25.444979|
|XXXX     |2017-10-25 14:49:32.21353 |
|YYYY     |2017-10-25 14:50:38.321134|
|YYYY     |2017-10-25 14:51:12.028447|
|ZZZZ     |2017-10-25 14:51:24.810688|
|YYYY     |2017-10-25 14:37:34.241097|
|ZZZZ     |2017-10-25 14:37:24.427836|
|XXXX     |2017-10-25 14:37:24.620864|
|YYYY     |2017-10-25 14:37:24.964614|
+---------+--------------------------+
Run Code Online (Sandbox Code Playgroud)

我想计算一天内每小时的事件滚动计数group_id

因此,对于 datetime25-10 14:00和 a group_id,我想计算group_id25-10 00:00until 开始的事件计数25-10 14:00

做类似下面的事情:

df.groupBy('group_id', window('event_time', '1 hour').alias('model_window')) \
    .agg(dfcount(lit(1)).alias('values'))
Run Code Online (Sandbox Code Playgroud)

计算每小时事件的计数,但不是每天累积的。

有任何想法吗?

编辑:预期的输出将类似于:

df.groupBy('group_id', window('event_time', '1 hour').alias('model_window')) \
    .agg(dfcount(lit(1)).alias('values'))
Run Code Online (Sandbox Code Playgroud)

hi-*_*zir 5

想要计算...每个 group_id 一天内的每小时。

提取数据和小时:

from pyspark.sql.functions import col, count, hour, sum

extended = (df
  .withColumn("event_time", col("event_time").cast("timestamp"))
  .withColumn("date", col("event_time").cast("date"))
  .withColumn("hour", hour(col("event_time"))))
Run Code Online (Sandbox Code Playgroud)

计算聚合

aggs = extended.groupBy("group_id", "date", "hour").count()
Run Code Online (Sandbox Code Playgroud)

我想计算事件的滚动计数

并使用窗口函数:

from pyspark.sql.window import Window

aggs.withColumn(
    "agg_count", 
    sum("count").over(Window.partitionBy("group_id", "date").orderBy("hour")))
Run Code Online (Sandbox Code Playgroud)

要为缺失的间隔获得 0,您必须为每个日期和小时生成参考数据并加入它。

随着df定义为:

df = sc.parallelize([
    ("XXXX", "2017-10-25 01:47:02.717013"),
    ("XXXX", "2017-10-25 14:47:25.444979"),
    ("XXXX", "2017-10-25 14:49:32.21353"),
    ("YYYY", "2017-10-25 14:50:38.321134"),
    ("YYYY", "2017-10-25 14:51:12.028447"),
    ("ZZZZ", "2017-10-25 14:51:24.810688"),
    ("YYYY", "2017-10-25 14:37:34.241097"),
    ("ZZZZ", "2017-10-25 14:37:24.427836"),
    ("XXXX", "2017-10-25 22:37:24.620864"),
    ("YYYY", "2017-10-25 16:37:24.964614")
]).toDF(["group_id", "event_time"])
Run Code Online (Sandbox Code Playgroud)

结果是

+--------+----------+----+-----+---------+                                      
|group_id|      date|hour|count|agg_count|
+--------+----------+----+-----+---------+
|    XXXX|2017-10-25|   1|    1|        1|
|    XXXX|2017-10-25|  14|    2|        3|
|    XXXX|2017-10-25|  22|    1|        4|
|    ZZZZ|2017-10-25|  14|    2|        2|
|    YYYY|2017-10-25|  14|    3|        3|
|    YYYY|2017-10-25|  16|    1|        4|
+--------+----------+----+-----+---------+
Run Code Online (Sandbox Code Playgroud)