当udf函数不接受足够大的输入变量时,Spark DataFrames

Question

当udf函数不接受足够大的输入变量时,Spark DataFrames

M.R*_*Rez 5 scala dataframe apache-spark apache-spark-sql apache-spark-mllib

我正在准备一个带有id和我的特征向量的DataFrame,以便稍后用于做预测.我在我的数据框架上做了一个groupBy,在我的groupBy中,我将几列作为列表合并到一个新列中:

def mergeFunction(...) // with 14 input variables

val myudffunction( mergeFunction ) // Spark doesn't support this

df.groupBy("id").agg(
   collect_list(df(...)) as ...
   ... // too many of these (something like 14 of them)
).withColumn("features_labels",
  myudffunction(
     col(...)
     , col(...) )
.select("id", "feature_labels")

Run Code Online (Sandbox Code Playgroud)

这就是我创建我的特征向量及其标签的方式.到目前为止,它一直在为我工作,但这是我第一次使用这种方法的特征向量大于数字10,这是Spark接受的最大函数udf.

我不知道我还能解决这个问题吗？Spark中udf输入的大小是否会变大,我是否理解错误,或者有更好的方法？

Answer 1

zer*_*323 8

用户定义的函数最多可定义22个参数.仅为udf最多10个参数定义了帮助程序.要处理具有大量参数的函数,您可以使用org.apache.spark.sql.UDFRegistration.

例如

val dummy = ((
  x0: Int, x1: Int, x2: Int, x3: Int, x4: Int, x5: Int, x6: Int, x7: Int, 
  x8: Int, x9: Int, x10: Int, x11: Int, x12: Int, x13: Int, x14: Int, 
  x15: Int, x16: Int, x17: Int, x18: Int, x19: Int, x20: Int, x21: Int) => 1)

Run Code Online (Sandbox Code Playgroud)

van注册:

import org.apache.spark.sql.expressions.UserDefinedFunction

val dummyUdf: UserDefinedFunction = spark.udf.register("dummy", dummy)

Run Code Online (Sandbox Code Playgroud)

并直接使用

val df = spark.range(1)
val exprs =  (0 to 21).map(_ => lit(1))

df.select(dummyUdf(exprs: _*))

Run Code Online (Sandbox Code Playgroud)

或通过名称 callUdf

import org.apache.spark.sql.functions.callUDF

df.select(
  callUDF("dummy", exprs:  _*).alias("dummy")
)

Run Code Online (Sandbox Code Playgroud)

或SQL表达式:

df.selectExpr(s"""dummy(${Seq.fill(22)(1).mkString(",")})""")

Run Code Online (Sandbox Code Playgroud)

您还可以创建一个UserDefinedFunction对象:

import org.apache.spark.sql.expressions.UserDefinedFunction

Seq(1).toDF.select(UserDefinedFunction(dummy, IntegerType, None)(exprs: _*))

Run Code Online (Sandbox Code Playgroud)

实际上,具有22个参数的函数不是很有用,除非你想使用Scala反射来生成这些,否则会有维护噩梦.

我会考虑使用集合(array,map)或struct作为输入或将其划分为多个模块.例如:

val aLongArray = array((0 to 256).map(_ => lit(1)): _*)

val udfWitharray = udf((xs: Seq[Int]) => 1)

Seq(1).toDF.select(udfWitharray(aLongArray).alias("dummy"))

Run Code Online (Sandbox Code Playgroud)

Answer 2

swd*_*dev 6

只是为了扩展零的答案,可以使.withColumn()函数与具有10个以上参数的UDF一起使用.只需要spark.udf.register()该函数然后使用一个expr参数来添加列(而不是a udf).

例如,这样的东西应该工作:

def mergeFunction(...) // with 14 input variables

spark.udf.register("mergeFunction", mergeFunction) // make available in expressions

df.groupBy("id").agg(
   collect_list(df(...)) as ...
   ... // too many of these (something like 14 of them)
).withColumn("features_labels",
  expr("mergeFunction(col1, col2, col3, col4, ...)") ) //pass in the 14 column names
.select("id", "feature_labels")

Run Code Online (Sandbox Code Playgroud)

底层表达式解析器似乎处理超过10个参数,所以我认为你不必诉诸于传递数组来调用该函数.此外,如果它们的参数恰好是不同的数据类型,则数组将无法正常工作.

归档时间：	9 年，3 月前
查看次数：	2169 次
最近记录：	7 年前