按时间间隔按 Pyspark 数据帧分组

Question

按时间间隔按 Pyspark 数据帧分组

timestamps我有一个为其生成的数据框：

 from pyspark.sql.functions import avg, first

 rdd = sc.parallelize(
[
    (0, "A", 223,"201603_170302", "PORT"), 
    (0, "A", 22,"201602_100302", "PORT"), 
    (0, "A", 422,"201601_114300", "DOCK"), 
    (1,"B", 3213,"201602_121302", "DOCK")
]
)
 df_data = sqlContext.createDataFrame(rdd, ["id","type", "cost", "date", "ship"])

Run Code Online (Sandbox Code Playgroud)

所以我可以生成一个datetime：

 dt_parse = udf(lambda x: datetime.strptime(x,"%Y%m%d_%H%M%S")
 df_data = df_data.withColumn('datetime', dt_parse(df_data.date))

Run Code Online (Sandbox Code Playgroud)

但现在我需要每天按 6 小时的间隔进行分组。每小时大约是

 df_data.groupby(hour(df_data.datetime)).agg(count(ship).alias(ship)).show()

Run Code Online (Sandbox Code Playgroud)

但这对于除小时之外的其他时间间隔不起作用。有办法做到吗？

Answer 1

Ser*_*rge 3

这对我有用。

import pyspark.sql.functions

# ...

interval = 60 * 60 * 6    # 6 hours
gdf = dataframe.withColumn(
    'time_interval',
    pyspark.sql.functions.from_unixtime(pyspark.sql.functions.floor(pyspark.sql.functions.unix_timestamp(dataframe[obj['field']]) / interval) * interval)
).groupBy('time_interval')
# and then something like gdf.agg(...); gdf.collect()

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，3 月前
查看次数：	4046 次
最近记录：	8 年，7 月前