所以我有一个用户名数据框,他们发布了哪些线程以及这些帖子的时间戳。如果弄清楚谁是线程的第一个用户以及时间,我想要做什么。我知道要弄清楚第一篇文章是在一个线程上做一个小组,然后在时间戳上做一个分钟。但这会删除用户名。我如何使用 group by 并保留用户名?
apache-spark pyspark
apache-spark ×1
pyspark ×1