小编Ron*_*som的帖子

使用 Spark 按行和列扩展 JSON 字符串

我是 Spark 新手，正在使用 JSON，但在做一些相当简单的事情时遇到了困难（我认为）。我尝试过使用类似问题的部分解决方案，但不太正确。我目前有一个 Spark 数据框，其中有几列代表变量。每行都是变量值的唯一组合。然后，我有一个应用于每一行的 UDF，它将每一列作为输入，进行一些分析，并以 JSON 字符串的形式输出每行的汇总表，并将这些结果保存在表的新列中。一些小样本数据如下所示：

+------+-----+------+-------------------------------------------------------------------
|Var 1 |Var 2|Var 3 |JSON Table 
+------+------------+-------------------------------------------------------------------
|True  |10%  |200   |[{"Out_1": "Mean", "Out_2": "25"}, {"Out_1": "Median", "Out_2": "21"}]
|False |15%  |150   |[{"Out_1": "Mean", "Out_2": "19"}, {"Out_1": "Median", "Out_2": "18"}]
|True  |12%  |100   |[{"Out_1": "Mean", "Out_2": "22"}, {"Out_1": "Median", "Out_2": "20"}]

Run Code Online (Sandbox Code Playgroud)

我想将其转换为以下格式：

+------+-----+------+------+-----+
|Var 1 |Var 2|Var 3 |Out_1 |Out_2| 
+------+------------+------+-----+
|True  |10%  |200   |Mean  |25   |
|True  |10%  |200   |Median|21   |
|False |15%  |150   |Mean  |19   |
|False |15% …

Run Code Online (Sandbox Code Playgroud)

json apache-spark-sql pyspark

Ron*_*som

lucky-day

6
推荐指数

1
解决办法

6207
查看次数

标签统计

apache-spark-sql ×1

json ×1

pyspark ×1

使用 Spark 按行和列扩展 JSON 字符串

标签 统计

小编Ron_som的帖子

标签统计