PySpark数据帧上的自定义聚合

Question

我有一个PySpark DataFrame,其中一列作为一个热编码向量.我想在groupby之后通过向量加法来聚合不同的一个热编码向量

例如 df[userid,action] Row1: ["1234","[1,0,0]] Row2: ["1234", [0 1 0]]

我希望输出为行:["1234", [ 1 1 0]]因此向量是所有向量分组的总和userid.

我怎样才能做到这一点？PySpark sum聚合操作不支持向量加法.

Answer 1

你有几个选择:

选项2和3都是相对低效的(花费cpu和内存).

@ThomasB.3是低效的,因为你会失去所有的数据帧的优化(如催化剂的优化,整个舞台的代码生成等),因为你的输入数据帧,也需要将数据从数据帧表示,以RDD表示转换.最后,在python中,所有RDD操作基本上都将数据序列化为python,对它们进行python操作并返回相对较慢的结果. (3认同)