从Spark Dataframe中删除空字符串

mon*_*lol 4 scala sbt apache-spark

试图删除Spark数据帧列包含空字符串的行.最初做了val df2 = df1.na.drop()但事实证明,许多这些值都被编码为"".

我坚持使用Spark 1.3.1并且也不能依赖DSL.(导入spark.implicit_不起作用.)

Kri*_*ian 17

从数据框中删除内容需要filter().

newDF = oldDF.filter("colName != ''")
Run Code Online (Sandbox Code Playgroud)

还是我误解了你的问题?

  • 或者,使用DataFrames/Datasets,`oldDF.filter($"colName"=!="")`.不要忘记`import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._` (4认同)
  • “ WHERE colName不为空”或“ WHERE colName不为空” ...我认为。 (2认同)