小编Jes*_*sse的帖子

通过Vertica查询Parquet数据(Vertica Hadoop集成)

所以我有一个有三个节点的Hadoop集群.Vertica位于群集上.HDFS上有Parquet文件(由Hive分区).我的目标是使用Vertica查询这些文件.

现在我所做的是使用HDFS Connector,基本上在Vertica中创建一个外部表,然后将其链接到HDFS:

CREATE EXTERNAL TABLE tableName (columns)
AS COPY FROM "hdfs://hostname/...../data" PARQUET;
Run Code Online (Sandbox Code Playgroud)

由于数据量很大.这种方法不会取得良好的性能.

我做了一些研究, Vertica Hadoop集成

我已经尝试过HCatalog,但我的Hadoop上有一些配置错误,所以这不起作用.

我的用例是不使用Vertica查询HDFS(Parquet)上的数据格式.有关如何做到这一点的任何想法?

编辑:Vertica性能缓慢的唯一原因是它无法使用Parquet的分区.使用更高版本的Vertica(8+),它现在可以使用配置单元的元数据.所以不需要HCatalog.

hadoop vertica parquet

4
推荐指数
1
解决办法
497
查看次数

标签 统计

hadoop ×1

parquet ×1

vertica ×1