小编sun*_*ara的帖子

pyspark udf 的可变数量的参数

我有275列,我想在列中搜索25正则表达式字符串"^D(410|412)。如果此搜索字符串出现在25 列中的任何一列中,我想添加trueMyNewColumn.

使用下面我可以为2列做到这一点。是否有传递可变列数的方法?

下面的代码适用于 2 列

def moreThanTwoArgs(col1,col2): 
return bool((re.search("^D(410|412)",col1) or re.search("^D(410|412)",col2)))

twoUDF= udf(moreThanTwoArgs,BooleanType())
df = df.withColumn("MyNewColumn", twoUDF(df["X1"], df["X2"]))
Run Code Online (Sandbox Code Playgroud)

pyspark udf

2
推荐指数
1
解决办法
2954
查看次数

标签 统计

pyspark ×1

udf ×1