小编sam*_*pak的帖子

pyspark 子串和聚合

我是 Spark 的新手,我有一个包含此类数据的 csv 文件:

date,            accidents, injured
2015/20/03 18:00    15,          5
2015/20/03 18:30    25,          4
2015/20/03 21:10    14,          7
2015/20/02 21:00    15,          6
Run Code Online (Sandbox Code Playgroud)

我想在它发生的特定时间聚合这些数据。我的想法是将日期子串到“年/月/日 hh”,没有分钟,这样我就可以把它作为一个键。我想给出每小时事故和受伤的平均值。也许 pyspark 有一种不同的、更聪明的方法?

谢谢你们!

aggregate substring pyspark

3
推荐指数
1
解决办法
1万
查看次数

标签 统计

aggregate ×1

pyspark ×1

substring ×1