将JSON对象的文件转换为Parquet文件

dan*_*ara 17 apache json parquet apache-drill

动机:我想将数据加载到Apache Drill中.我知道Drill可以处理JSON输入,但我想看看它如何在Parquet数据上执行.

有没有办法在没有先将数据加载到Hive等中然后使用其中一个Parquet连接器生成输出文件的情况下执行此操作?

小智 5

Kite支持通过其命令行实用程序将JSON导入Avro和Parquet格式kite-dataset.

首先,您将推断出JSON的架构:

kite-dataset json-schema sample-file.json -o schema.avsc

然后,您可以使用该文件来创建Parquet Hive表:

kite-dataset create mytable --schema schema.avsc --format parquet

最后,您可以将JSON加载到数据集中.

kite-dataset json-import sample-file.json mytable

您还可以导入直接存储在HDFS中的整个.在这种情况下,Kite将使用MR作业进行导入.


rah*_*hul 4

实际上,您可以使用 Drill 本身从任何查询的输出创建 parquet 文件。

create table student_parquet as select * from `student.json`;
Run Code Online (Sandbox Code Playgroud)

上面的行应该足够好了。Drill 根据字段中的数据解释类型。您可以替换自己的查询并创建 parquet 文件。