我是 Spark 的新手,我有一个包含此类数据的 csv 文件:
date, accidents, injured
2015/20/03 18:00 15, 5
2015/20/03 18:30 25, 4
2015/20/03 21:10 14, 7
2015/20/02 21:00 15, 6
Run Code Online (Sandbox Code Playgroud)
我想在它发生的特定时间聚合这些数据。我的想法是将日期子串到“年/月/日 hh”,没有分钟,这样我就可以把它作为一个键。我想给出每小时事故和受伤的平均值。也许 pyspark 有一种不同的、更聪明的方法?
谢谢你们!