相关疑难解决方法(0)

连续行之间的日期差异 - Pyspark Dataframe

我有一个具有以下结构的表

USER_ID     Tweet_ID                 Date
  1           1001       Thu Aug 05 19:11:39 +0000 2010
  1           6022       Mon Aug 09 17:51:19 +0000 2010
  1           1041       Sun Aug 19 11:10:09 +0000 2010
  2           9483       Mon Jan 11 10:51:23 +0000 2012
  2           4532       Fri May 21 11:11:11 +0000 2012
  3           4374       Sat Jul 10 03:21:23 +0000 2013
  3           4334       Sun Jul 11 04:53:13 +0000 2013
Run Code Online (Sandbox Code Playgroud)

基本上我想要做的是有一个PysparkSQL查询,它计算具有相同user_id号的连续记录的日期差异(以秒为单位).预期结果将是:

1      Sun Aug 19 11:10:09 +0000 2010 - Mon Aug 09 17:51:19 +0000 2010     839930
1      Mon …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark pyspark-sql

7
推荐指数
2
解决办法
4036
查看次数

标签 统计

apache-spark ×1

pyspark ×1

pyspark-sql ×1

python ×1