ds_*_*ser 4 hadoop hive amazon-emr apache-spark parquet
我们在 s3(镶木地板文件)中有以下格式的数据集,数据根据行号划分为多个镶木地板文件。
data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...
Run Code Online (Sandbox Code Playgroud)
我们有 2000 多个这样的文件,每个文件上都有数百万条记录。所有这些文件都具有相同数量的列和结构。如果我们需要在 hive 中对数据集进行分区,那么其中一列中有时间戳。我们如何指向数据集并在其上创建单个 hive 外部表以进行分析,或者可以使用 spark 进行分析?
谢谢。
您可以简单地指向包含文件的路径:
CREATE EXTERNAL TABLE parquet_hive (
foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
7172 次 |
| 最近记录: |