Spark获取嵌套对象的数据类型

Question

Spark获取嵌套对象的数据类型

Sun*_*B M 3 arrays dataframe apache-spark apache-spark-sql

我有一些 JSON 数据，如下所示：

{
    "key1":"value1",
    "key2":[
        1,
        2,
        3
    ],
    "key3":{
        "key31":"value31",
        "key32":"value32"
    },
    "key4":[
        {
            "key41":"value411",
            "key42":"value412",
            "key43":"value413"
        },
        {
            "key41":"value421",
            "key42":"value422",
            "key43":"value423"
        }
    ],
    "key5":{
        "key51":[
            {
                "key511":"value511",
                "key512":"value512",
                "key513":"value513"
            },
            {
                "key511":"value521",
                "key512":"value522",
                "key513":"value523"
            }
        ]
    },
    "key6":{
        "key61":{
            "key611":[
                {
                    "key_611":"value_611",
                    "key_612":"value_612",
                    "key_613":"value_613"
                },
                {
                    "key_611":"value_621",
                    "key_612":"value_622",
                    "key_613":"value_623"
                },
                {
                    "key_611":"value_621",
                    "key_612":"value_622",
                    "key_613":"value_623"
                }
            ]
        }
    }
}

Run Code Online (Sandbox Code Playgroud)

它包含简单、复杂和数组类型值的混合。

如果我尝试获取 key1 的数据类型schema.("key1").dataType，我会得到StringTypekey2、key3 和 key4 的数据类型。

对于key5，我也得到了StructType。

但是，当我尝试使用获取嵌套在 key5 下的 key51 的数据类型时schema.("key5.key51").dataType，出现以下错误：

java.lang.IllegalArgumentException: Field "key5.key51" does not exist.
  at org.apache.spark.sql.types.StructType$$anonfun$apply$1.apply(StructType.scala:264)
  at org.apache.spark.sql.types.StructType$$anonfun$apply$1.apply(StructType.scala:264)
  at scala.collection.MapLike$class.getOrElse(MapLike.scala:128)
  at scala.collection.AbstractMap.getOrElse(Map.scala:59)
  at org.apache.spark.sql.types.StructType.apply(StructType.scala:263)
  ... 48 elided

Run Code Online (Sandbox Code Playgroud)

我的主要目的是能够爆炸给定类型，如果它是ArrayType，并且不会爆炸任何其他类型。

爆炸函数能够正确识别这个给定的键（key5.key51）并爆炸数组。但问题在于确定数据类型。

对我来说，一个可能的解决方案是选择 key5.key51 作为单独的列 key51，然后分解该列。

但是，有没有更好、更优雅的方法来执行此操作，同时仍然能够确定给定列的数据类型？

Answer 1

zer*_*323 6

最简单的解决方案是找到select感兴趣的字段，然后检索架构：

df.select("key5.key51").schema.head.dataType

Run Code Online (Sandbox Code Playgroud)

.直接使用完整模式需要遍历模式，并且在使用嵌入式和StructTypes复杂类型（Maps和）时可能很难正确执行Arrays。

归档时间：	8 年，1 月前
查看次数：	3659 次
最近记录：	7 年，1 月前