Edg*_*ge7 1 hive data-migration amazon-redshift
让我解释一下这个场景:我有数百个 Hive 表存储在 S3(ORC、Parquet)上,所以需要明确的是没有 HDFS。现在,我有兴趣将其中一些迁移到 Redshift 来运行一些性能测试。我知道 redshift 不支持 ORC、Parquet,所以我需要创建一些 CSV/JSON 才能使用 COPY 命令。我正在考虑使用 Hive 本身创建临时 CSV 表,然后迁移到 Redshift。我也在考虑使用 Spark 来移动这些数据。有人有这种情况的经验吗?
您可以设置 Redshift Spectrum,使您的 S3 表看起来像 Redshift 表,然后您可以直接查询数据或将其引入内部 Redshift 表。
https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html
完全支持 ORC 和 Parquet。
https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html
| 归档时间: |
|
| 查看次数: |
2919 次 |
| 最近记录: |