在SPARK SCALA中按名称获取行类型结构的元素

sat*_*117 2 scala apache-spark apache-spark-sql

在Apache Spark的DataFrame对象中(我使用的是Scala接口),如果我在其Row对象上进行迭代,有没有办法按名称提取结构值?

我使用下面的代码按名称提取,但我面临着如何读取struct值的问题.

如果值是字符串类型,那么我们可以这样做:

 val resultDF=joinedDF.rdd.map{row=> 
      val id=row.getAs[Long]("id")
      val values=row.getAs[String]("slotSize")
      val feilds=row.getAs[String](values)
      (id,values,feilds)
      }.toDF("id","values","feilds")
Run Code Online (Sandbox Code Playgroud)

但在我的情况下,值具有以下架构

v1: struct (nullable = true)
     |    |-- level1: string (nullable = true)
     |    |-- level2: string (nullable = true)
     |    |-- level3: string (nullable = true)
     |    |-- level4: string (nullable = true)
     |    |-- level5: string (nullable = true)
Run Code Online (Sandbox Code Playgroud)

如果值具有上述结构,我应该用什么来代替这一行来使代码工作.

  row.getAs[String](values)
Run Code Online (Sandbox Code Playgroud)

Rap*_*oth 16

您可以从顶层访问struct我第一次提取另一个元素Row(结构Row在spark 中建模为另一个元素),Row如下所示:

val level1 = row.getAs[Row]("struct").getAs[String]("level1")
Run Code Online (Sandbox Code Playgroud)