小编Ahm*_*met的帖子

多个连续加入pyspark

我正在尝试将多个DF一起加入。因为联接是如何工作的，所以我得到了重复的相同列名。

在（K，V）和（K，W）类型的数据集上调用时，返回（K，（V，W））对的数据集，其中每个键都有所有成对的元素。

# Join Min and Max to S1
joinned_s1 = (minTime.join(maxTime, minTime["UserId"] == maxTime["UserId"]))

# Join S1 and sum to s2
joinned_s2 = (joinned_s1.join(sumTime, joinned_s1["UserId"] == sumTime["UserId"]))

Run Code Online (Sandbox Code Playgroud)

我收到此错误：“”参考'UserId'不明确，可能是：UserId＃1578，UserId＃3014。“

成功加入后，从数据集中删除W的正确方法是什么？

python apache-spark apache-spark-sql pyspark

Ahm*_*met

2016 07-20

4
推荐指数

2
解决办法

1万
查看次数

使用 pySpark 计算用户事件之间的平均时间

我有一个由“事件”、“时间”、“用户 ID”组成的日志文件。

+------------+----------------+---------+
|   Events   |      Time      | UserId  |
+------------+----------------+---------+
| ClickA     | 7/6/16 10:00am | userA   |
+------------+----------------+---------+
| ClickB     | 7/6/16 12:00am | userA   |
+------------+----------------+---------+

Run Code Online (Sandbox Code Playgroud)

我想为每个用户计算事件之间的平均时间。你们如何解决这个问题？在传统的编程环境中，我会遍历用户的每个事件并计算事件n和n-1之间的时间增量，将该值添加到数组 A 中。然后我会计算 A 中每个值的平均值。我怎样才能用 Spark 来做这个吗？

apache-spark

Ahm*_*met

lucky-day

2
推荐指数

1
解决办法

2363
查看次数