小编ben*_*ben的帖子

如何检测Spark DataFrame是否具有列

当我DataFrame在Spark SQL中创建一个JSON文件时,如何在调用之前判断给定列是否存在.select

示例JSON模式:

{
  "a": {
    "b": 1,
    "c": 2
  }
}

Run Code Online (Sandbox Code Playgroud)

这就是我想要做的:

potential_columns = Seq("b", "c", "d")
df = sqlContext.read.json(filename)
potential_columns.map(column => if(df.hasColumn(column)) df.select(s"a.$column"))

Run Code Online (Sandbox Code Playgroud)

但我找不到一个好的功能hasColumn.我得到的最接近的是测试列是否在这个有点笨拙的数组中:

scala> df.select("a.*").columns
res17: Array[String] = Array(b, c)

Run Code Online (Sandbox Code Playgroud)

scala dataframe apache-spark apache-spark-sql

ben*_*ben

2019 01-06

39
推荐指数

5
解决办法

5万
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

dataframe ×1

scala ×1

如何检测Spark DataFrame是否具有列

标签 统计

小编ben_ben的帖子

标签统计