如何使用scala在Apache spark中用空字符串（“”）替换空值

Question

如何使用scala在Apache spark中用空字符串（“”）替换空值

Vas*_*asu 1 scala apache-spark apache-spark-sql spark-dataframe

我正在使用 Apache spark 中的巨大数据集（包含 332 个字段）与大约 10M 记录的 scala（除了一个字段，其余 331 个可以为空）。但我想用空白字符串（“”）替换 null。由于我有大量字段，实现这一目标的最佳方法是什么？我想在导入此数据集时处理空值，因此在执行转换或导出到 DF 时我会很安全。所以我创建了具有 332 个字段的案例类，处理这些空值的最佳方法是什么？我可以使用 Option(field).getOrElse("")，但我想这不是最好的方法，因为我有大量的字段。谢谢！！

Answer 1

Roc*_*ang 7

我们可以使用udf这样的安全列

val df = Seq((1,"Hello"), (2,"world"), (3,null)).toDF("id", "name")

val safeString: String => String = s => if (s == null) "" else s
val udfSafeString = udf(safeString)

val dfSafe = df.select($"id", udfSafeString($"name").alias("name"))

dfSafe.show

Run Code Online (Sandbox Code Playgroud)

如果您有很多列，并且其中一列是关键列。我们可以这样做。

val safeCols = df.columns.map(colName => 
    if (colName == "id") col(colName) 
    else udfSafeString(col(colName)).alias(colName))

val dfSafe =  df.select(safeCols:_*)
dfSafe.show

Run Code Online (Sandbox Code Playgroud)

Answer 2

小智 7

您应该查看 DataFrameNAFunctions。有一些函数可以将不同类型字段中的空值替换为默认值。

val naFunctions = explodeDF.na
val nonNullDF = naFunctions.fill("")

Run Code Online (Sandbox Code Playgroud)

这会将字符串字段中的所有空值替换为“”。

如果您的数据集有一些具有不同数据类型的字段，那么您必须通过提供该特定类型的默认值来重复相同的功能。例如，可以为 Int 字段指定默认值 0。

归档时间：	8 年，6 月前
查看次数：	9874 次
最近记录：	8 年，6 月前