将UDF应用于Spark Dataframe中的多个列

Question

将UDF应用于Spark Dataframe中的多个列

Gri*_*mer 1 scala user-defined-functions apache-spark

我有一个如下所示的数据框

| id| age|   rbc|  bgr| dm|cad|appet| pe|ane|classification|
+---+----+------+-----+---+---+-----+---+---+--------------+
|  3|48.0|normal|117.0| no| no| poor|yes|yes|           ckd|
....
....
....

Run Code Online (Sandbox Code Playgroud)

我编写了一个UDF来将分类转换yes, no, poor, normal为二进制0s和1s

def stringToBinary(stringValue: String): Int = {
    stringValue match {
        case "yes" => return 1
        case "no" => return 0
        case "present" => return 1
        case "notpresent" => return 0
        case "normal" => return 1
        case "abnormal" => return 0
    }
}

val stringToBinaryUDF = udf(stringToBinary _)

Run Code Online (Sandbox Code Playgroud)

我将此应用于数据帧,如下所示

val newCol = stringToBinaryUDF.apply(col("pc")) //creates the new column with formatted value
val refined1 = noZeroDF.withColumn("dm", newCol) //adds the new column to original

Run Code Online (Sandbox Code Playgroud)

如何将多个列传递到UDF中,以便我不必为其他分类列重复自己？

Answer 1

Ram*_*jan 10

udf如果您具有spark执行相同工作的函数,则函数不应该是udf函数将序列化和反序列化列数据.

给出一个dataframeas

+---+----+------+-----+---+---+-----+---+---+--------------+
|id |age |rbc   |bgr  |dm |cad|appet|pe |ane|classification|
+---+----+------+-----+---+---+-----+---+---+--------------+
|3  |48.0|normal|117.0|no |no |poor |yes|yes|ckd           |
+---+----+------+-----+---+---+-----+---+---+--------------+

Run Code Online (Sandbox Code Playgroud)

您可以通过when功能实现您的要求

import org.apache.spark.sql.functions._
def applyFunction(column : Column) = when(column === "yes" || column === "present" || column === "normal", lit(1))
  .otherwise(when(column === "no" || column === "notpresent" || column === "abnormal", lit(0)).otherwise(column))

df.withColumn("dm", applyFunction(col("dm")))
  .withColumn("cad", applyFunction(col("cad")))
  .withColumn("rbc", applyFunction(col("rbc")))
  .withColumn("pe", applyFunction(col("pe")))
  .withColumn("ane", applyFunction(col("ane")))
  .show(false)

Run Code Online (Sandbox Code Playgroud)

结果是

+---+----+---+-----+---+---+-----+---+---+--------------+
|id |age |rbc|bgr  |dm |cad|appet|pe |ane|classification|
+---+----+---+-----+---+---+-----+---+---+--------------+
|3  |48.0|1  |117.0|0  |0  |poor |1  |1  |ckd           |
+---+----+---+-----+---+---+-----+---+---+--------------+

Run Code Online (Sandbox Code Playgroud)

现在问题清楚地表明,您不希望为所有列重复该过程,您可以执行以下操作

val columnsTomap = df.select("rbc", "cad", "rbc", "pe", "ane").columns

var tempdf = df
columnsTomap.map(column => {
  tempdf = tempdf.withColumn(column, applyFunction(col(column)))
})

tempdf.show(false)

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，5 月前
查看次数：	9751 次
最近记录：	6 年，6 月前