如何将参数传递给用户定义的函数？

Question

如何将参数传递给用户定义的函数？

我有一个用户定义的函数：

calc = udf(calculate, FloatType())

param1 = "A"

result = df.withColumn('col1', calc(col('type'), col('pos'))).groupBy('pk').sum('events')

def calculate(type, pos):
   if param1=="A":
       a, b = [ 0.05, -0.06 ]
   else:
       a, b = [ 0.15, -0.16 ]
   return a * math.pow(type, b) * max(pos, 1)

Run Code Online (Sandbox Code Playgroud)

我需要将参数传递param1给this udf。我该怎么做？

Answer 1

Pau*_*l V 7

您可以像这样使用lit或typedLit作为参数udf：

在Python中：

from pyspark.sql.functions import udf, col, lit
mult = udf(lambda value, multiplier: value * multiplier)
df = spark.sparkContext.parallelize([(1,),(2,),(3,)]).toDF()
df.select(mult(col("_1"), lit(3)))

Run Code Online (Sandbox Code Playgroud)

在Scala中：

import org.apache.spark.sql.functions.{udf, col, lit}
val mult = udf((value: Double, multiplier: Double) => value * multiplier)
val df = sparkContext.parallelize((1 to 10)).toDF
df.select(mult(col("value"), lit(3)))

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年前
查看次数：	3448 次
最近记录：	8 年前