小编coo*_*716的帖子

如何使用pyspark从某些字段分组的给定数据集中获取max(date)？

我有数据框中的数据如下:

  datetime             | userId | memberId | value |    
2016-04-06 16:36:...   | 1234   | 111      | 1
2016-04-06 17:35:...   | 1234   | 222      | 5
2016-04-06 17:50:...   | 1234   | 111      | 8
2016-04-06 18:36:...   | 1234   | 222      | 9
2016-04-05 16:36:...   | 4567   | 111      | 1
2016-04-06 17:35:...   | 4567   | 222      | 5
2016-04-06 18:50:...   | 4567   | 111      | 8
2016-04-06 19:36:...   | 4567   | 222      | 9

Run Code Online (Sandbox Code Playgroud)

我需要在userid,memberid中找到max(datetime)groupby.当我尝试如下:

df2 = df.groupBy('userId','memberId').max('datetime')

Run Code Online (Sandbox Code Playgroud)

我收到的错误是:

org.apache.spark.sql.AnalysisException: "datetime" …

Run Code Online (Sandbox Code Playgroud)

sql apache-spark apache-spark-sql pyspark pyspark-sql

coo*_*716

2017 12-17

17
推荐指数

1
解决办法

2万
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1

pyspark-sql ×1

sql ×1

如何使用pyspark从某些字段分组的给定数据集中获取max(date)？

标签 统计

小编coo_716的帖子

标签统计