我有一个具有以下结构的表
USER_ID Tweet_ID Date
1 1001 Thu Aug 05 19:11:39 +0000 2010
1 6022 Mon Aug 09 17:51:19 +0000 2010
1 1041 Sun Aug 19 11:10:09 +0000 2010
2 9483 Mon Jan 11 10:51:23 +0000 2012
2 4532 Fri May 21 11:11:11 +0000 2012
3 4374 Sat Jul 10 03:21:23 +0000 2013
3 4334 Sun Jul 11 04:53:13 +0000 2013
Run Code Online (Sandbox Code Playgroud)
基本上我想要做的是有一个PysparkSQL查询,它计算具有相同user_id号的连续记录的日期差异(以秒为单位).预期结果将是:
1 Sun Aug 19 11:10:09 +0000 2010 - Mon Aug 09 17:51:19 +0000 2010 839930
1 Mon …Run Code Online (Sandbox Code Playgroud)