小编Bur*_*rke的帖子

将具有结构数组的列扩展为新列

我有一个带有单列的 DataFrame,它是一个结构数组

df.printSchema()
root
 |-- dataCells: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- label: string (nullable = true)
 |    |    |-- value: string (nullable = true)
Run Code Online (Sandbox Code Playgroud)

一些示例数据可能如下所示:

df.first()
Row(dataCells=[Row(label="firstName", value="John"), Row(label="lastName", value="Doe"), Row(label="Date", value="1/29/2018")])
Run Code Online (Sandbox Code Playgroud)

我试图弄清楚如何通过将每个结构转换为命名列来重新格式化此 DataFrame。我想要一个像这样的数据框:

------------------------------------
| firstName | lastName | Date      |
------------------------------------
| John      | Doe      | 1/29/2018 |
| ....      | ...      | ...       |
Run Code Online (Sandbox Code Playgroud)

我已经尝试了我能想到的一切,但还没有弄清楚。

apache-spark pyspark

4
推荐指数
1
解决办法
5166
查看次数

标签 统计

apache-spark ×1

pyspark ×1