小编sam*_*pak的帖子

pyspark 子串和聚合

我是 Spark 的新手，我有一个包含此类数据的 csv 文件：

date,            accidents, injured
2015/20/03 18:00    15,          5
2015/20/03 18:30    25,          4
2015/20/03 21:10    14,          7
2015/20/02 21:00    15,          6

Run Code Online (Sandbox Code Playgroud)

我想在它发生的特定时间聚合这些数据。我的想法是将日期子串到“年/月/日 hh”，没有分钟，这样我就可以把它作为一个键。我想给出每小时事故和受伤的平均值。也许 pyspark 有一种不同的、更聪明的方法？

谢谢你们！

aggregate substring pyspark

sam*_*pak

lucky-day

3
推荐指数

1
解决办法

1万
查看次数

标签统计

aggregate ×1

pyspark ×1

substring ×1

pyspark 子串和聚合

标签 统计

小编sam_pak的帖子

标签统计