小编NDS*_*NDS的帖子

PySpark:在 UDF 中使用列名称并根据逻辑进行列名称的串联

我有一个像这样的 Spark 数据框......

ID A C D
编号1 1 0 0 2
编号2 0 3 0 1
id3 1 2 5 0
id4 4 0 0 1

我想要一个基于这个逻辑的新数据框......

  1. 接受任何具有正值的列
  2. 连接他们的名字

那么结果就会是这样的……

ID 新专栏
编号1 广告
编号2 乙、丁
id3 甲、乙、丙
id4 广告

我的努力:

A)对于第一步,我想我会将整数转换为列的名称......所以它看起来像这样......

ID A C D
编号1 A 0 0 D
编号2 0 0 D
id3 A C 0
id4 A 0 0 D

我尝试使用 UDF 但没有成功...

def CountSelect(colname, x):
  if x>0 :
    return …
Run Code Online (Sandbox Code Playgroud)

python dataframe apache-spark apache-spark-sql pyspark

2
推荐指数
1
解决办法
1294
查看次数