相关疑难解决方法(0)

数组元素的总和取决于值条件 pyspark

我有一个 pyspark 数据框:

id   |   column
------------------------------
1    |  [0.2, 2, 3, 4, 3, 0.5]
------------------------------
2    |  [7, 0.3, 0.3, 8, 2,]
------------------------------
Run Code Online (Sandbox Code Playgroud)

我想创建一个 3 列:

  • Column 1: 包含元素之和 < 2
  • Column 2: 包含元素之和 > 2
  • Column 3: 包含元素的总和 = 2(有时我有重复的值,所以我计算它们的总和)如果我没有值,我将其设为 null。

期待结果:

id   |   column               |  column<2 |  column>2   | column=2 
------------------------------|--------------------------------------------  
1    |  [0.2, 2, 3, 4, 3, 0.5]|  [0.7]    |  [12]       |  null
---------------------------------------------------------------------------
2    |  [7, 0.3, 0.3, 8, 2,]  | [0.6] …
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark pyspark-sql pyspark-dataframes

1
推荐指数
1
解决办法
2471
查看次数