dan*_*ara 17 apache json parquet apache-drill
动机:我想将数据加载到Apache Drill中.我知道Drill可以处理JSON输入,但我想看看它如何在Parquet数据上执行.
有没有办法在没有先将数据加载到Hive等中然后使用其中一个Parquet连接器生成输出文件的情况下执行此操作?
小智 5
Kite支持通过其命令行实用程序将JSON导入Avro和Parquet格式kite-dataset
.
首先,您将推断出JSON的架构:
kite-dataset json-schema sample-file.json -o schema.avsc
然后,您可以使用该文件来创建Parquet Hive表:
kite-dataset create mytable --schema schema.avsc --format parquet
最后,您可以将JSON加载到数据集中.
kite-dataset json-import sample-file.json mytable
您还可以导入直接存储在HDFS中的整个.在这种情况下,Kite将使用MR作业进行导入.
实际上,您可以使用 Drill 本身从任何查询的输出创建 parquet 文件。
create table student_parquet as select * from `student.json`;
Run Code Online (Sandbox Code Playgroud)
上面的行应该足够好了。Drill 根据字段中的数据解释类型。您可以替换自己的查询并创建 parquet 文件。
归档时间: |
|
查看次数: |
10213 次 |
最近记录: |