小编San*_*jay的帖子

如何在spark sql中调用具有多个参数(柯里化)的udf?

我如何在 Spark 数据框中使用多个参数(柯里化)调用下面的 UDF,如下所示。

读取读取并获取列表[String]

val data = sc.textFile("file.csv").flatMap(line => line.split("\n")).collect.toList
Run Code Online (Sandbox Code Playgroud)

注册UDF

val getValue = udf(Udfnc.getVal(_: Int, _: String, _: String)(_: List[String]))
Run Code Online (Sandbox Code Playgroud)

在下面的df中调用udf

df.withColumn("value",
     getValue(df("id"),
        df("string1"),
        df("string2"))).show()
Run Code Online (Sandbox Code Playgroud)

这是我缺少的List[String]论点,我真的不确定我应该如何传递这个论点。

scala apache-spark

2
推荐指数
1
解决办法
1万
查看次数

标签 统计

apache-spark ×1

scala ×1