use*_*666 6 aggregate-functions user-defined-functions apache-spark apache-spark-sql pyspark
我有一个PySpark DataFrame,其中一列作为一个热编码向量.我想在groupby之后通过向量加法来聚合不同的一个热编码向量
例如 df[userid,action] Row1: ["1234","[1,0,0]] Row2: ["1234", [0 1 0]]
我希望输出为行:["1234", [ 1 1 0]]因此向量是所有向量分组的总和userid.
我怎样才能做到这一点?PySpark sum聚合操作不支持向量加法.
你有几个选择:
选项2和3都是相对低效的(花费cpu和内存).
| 归档时间: |
|
| 查看次数: |
6030 次 |
| 最近记录: |