DataFrame 分解 JSON 对象列表

Question

DataFrame 分解 JSON 对象列表

Sun*_*bel 6 scala distributed-computing apache-spark apache-spark-sql

我有以下格式的 JSON 数据：

{
     "date": 100
     "userId": 1
     "data": [
         {
             "timeStamp": 101,
             "reading": 1
         },
         {
             "timeStamp": 102,
             "reading": 2
         }
     ]
 }
 {
     "date": 200
     "userId": 1
     "data": [
         {
             "timeStamp": 201,
             "reading": 3
         },
         {
             "timeStamp": 202,
             "reading": 4
         }
     ]
 }

Run Code Online (Sandbox Code Playgroud)

我将其读入 Spark SQL：

val df = SQLContext.read.json(...)
df.printSchema
// root
//  |-- date: double (nullable = true)
//  |-- userId: long (nullable = true)
//  |-- data: array (nullable = true)
//  |     |-- element: struct (containsNull = true)
//  |     |    |-- timeStamp: double (nullable = true)
//  |     |    |-- reading: double (nullable = true)

Run Code Online (Sandbox Code Playgroud)

我想转换它以便每次阅读都有一行。据我了解，每次转换都应该生成一个新的 DataFrame，因此以下内容应该有效：

import org.apache.spark.sql.functions.explode
val exploded = df
    .withColumn("reading", explode(df("data.reading")))
    .withColumn("timeStamp", explode(df("data.timeStamp")))
    .drop("data")
exploded.printSchema
// root
//  |-- date: double (nullable = true)
//  |-- userId: long (nullable = true)
//  |-- timeStamp: double (nullable = true)
//  |-- reading: double (nullable = true)

Run Code Online (Sandbox Code Playgroud)

结果模式是正确的，但我得到了每个值两次：

exploded.show
// +-----------+-----------+-----------+-----------+
// |       date|     userId|  timeStamp|    reading|
// +-----------+-----------+-----------+-----------+
// |        100|          1|        101|          1|
// |        100|          1|        101|          1|
// |        100|          1|        102|          2|
// |        100|          1|        102|          2|
// |        200|          1|        201|          3|
// |        200|          1|        201|          3|
// |        200|          1|        202|          4|
// |        200|          1|        202|          4|
// +-----------+-----------+-----------+-----------+

Run Code Online (Sandbox Code Playgroud)

我的感觉是，关于两次爆炸的懒惰评估有一些我不明白的地方。

有没有办法让上面的代码工作？还是我应该一起使用不同的方法？

Answer 1

zer*_*323 7

结果模式是正确的，但我得到了每个值两次

虽然架构是正确的，但您提供的输出并不反映实际结果。在实践中，您将获得每个输入行的timeStamp和的笛卡尔积reading。

我的感觉是懒惰评价有点

不，它与懒惰评估无关。你使用的方式explode是错误的。要了解发生了什么，让我们跟踪date等于 100 的执行情况：

val df100 = df.where($"date" === 100)

Run Code Online (Sandbox Code Playgroud)

一步步。首先explode将生成两行，一行用于 1，另一行用于 2：

val df100WithReading = df100.withColumn("reading", explode(df("data.reading")))

df100WithReading.show
// +------------------+----+------+-------+
// |              data|date|userId|reading|
// +------------------+----+------+-------+
// |[[1,101], [2,102]]| 100|     1|      1|
// |[[1,101], [2,102]]| 100|     1|      2|
// +------------------+----+------+-------+

Run Code Online (Sandbox Code Playgroud)

第二次爆炸timeStamp为上一步中的每一行生成两行（等于 101 和 102）：

val df100WithReadingAndTs = df100WithReading
  .withColumn("timeStamp", explode(df("data.timeStamp")))

df100WithReadingAndTs.show
// +------------------+----+------+-------+---------+
// |              data|date|userId|reading|timeStamp|
// +------------------+----+------+-------+---------+
// |[[1,101], [2,102]]| 100|     1|      1|      101|
// |[[1,101], [2,102]]| 100|     1|      1|      102|
// |[[1,101], [2,102]]| 100|     1|      2|      101|
// |[[1,101], [2,102]]| 100|     1|      2|      102|
// +------------------+----+------+-------+---------+

Run Code Online (Sandbox Code Playgroud)

如果您想要正确的结果explode数据和select之后：

val exploded = df.withColumn("data", explode($"data"))
  .select($"userId", $"date",
    $"data".getItem("reading"),  $"data".getItem("timestamp"))

exploded.show
// +------+----+-------------+---------------+
// |userId|date|data[reading]|data[timestamp]|
// +------+----+-------------+---------------+
// |     1| 100|            1|            101|
// |     1| 100|            2|            102|
// |     1| 200|            3|            201|
// |     1| 200|            4|            202|
// +------+----+-------------+---------------+

Run Code Online (Sandbox Code Playgroud)

内部字段选择的缩写形式也可以使用：`df.withColumn("data",explode($"data")).select($"data.reading", $"data.timestamp", $"date",$ "userId").foreach(println)` (3认同)

归档时间：	9 年，10 月前
查看次数：	10595 次
最近记录：	8 年前