在 S3 上运行 HIVE?

Pra*_*eri 1 hive amazon-s3 amazon-web-services hiveql

SQL我想通过 .txt对S3文件/存储桶运行查询HIVE。我不知道如何进行设置。感谢您的帮助。

Joh*_*ein 5

您首先创建一个EXTERNAL TABLE定义数据格式并指向 Amazon S3 中的位置的变量:

CREATE EXTERNAL TABLE s3_export(a_col string, b_col bigint, c_col array<string>)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
LOCATION 's3://bucketname/path/subpath/';
Run Code Online (Sandbox Code Playgroud)

然后,您可以使用普通命令从表中读取数据SELECT,例如:

SELECT b_col FROM s3_export
Run Code Online (Sandbox Code Playgroud)

或者,您可以使用Amazon Athena对 Amazon S3 中的数据运行类似 Hive 的查询,甚至不需要 Hadoop 集群。(它实际上基于Presto 语法,与 Hive 非常相似。)