DataFrame到Spark中的Json数组

Question

DataFrame到Spark中的Json数组

use*_*629 4 java arrays json apache-spark

我正在用Java编写Spark应用程序，该应用程序读取HiveTable并将输出以Json格式存储在HDFS中。

我使用读取了配置单元表HiveContext，它返回了DataFrame。下面是代码片段。

 SparkConf conf = new SparkConf().setAppName("App");
 JavaSparkContext sc = new JavaSparkContext(conf);
 HiveContext hiveContext = new org.apache.spark.sql.hive.HiveContext(sc);

DataFrame data1= hiveContext.sql("select * from tableName")

Run Code Online (Sandbox Code Playgroud)

现在我想转换DataFrame为JsonArray。例如，data1数据如下所示

|  A  |     B     |
-------------------
|  1  | test      |
|  2  | mytest    |

Run Code Online (Sandbox Code Playgroud)

我需要如下输出

[{1:"test"},{2:"mytest"}]

Run Code Online (Sandbox Code Playgroud)

我尝试使用data1.schema.json()，它给了我下面的输出，而不是数组。

{1:"test"}
{2:"mytest"}

Run Code Online (Sandbox Code Playgroud)

什么是正确的做法或功能转换DataFrame到jsonArray不使用任何第三方库。

Answer 1

phi*_*ert 5

data1.schema.json将为您提供一个JSON字符串，其中包含数据框的架构，而不是实际数据本身。你会得到：

String = {"type":"struct",
          "fields":
                  [{"name":"A","type":"integer","nullable":false,"metadata":{}},
                  {"name":"B","type":"string","nullable":true,"metadata":{}}]}

Run Code Online (Sandbox Code Playgroud)

要将您的数据toJSON框转换为JSON数组，您需要使用DataFrame的方法：

val df = sc.parallelize(Array( (1, "test"), (2, "mytest") )).toDF("A", "B")
df.show()

+---+------+
|  A|     B|
+---+------+
|  1|  test|
|  2|mytest|
+---+------+

df.toJSON.collect.mkString("[", "," , "]" )
String = [{"A":1,"B":"test"},{"A":2,"B":"mytest"}]

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，8 月前
查看次数：	5814 次
最近记录：	7 年，2 月前