Rod*_*Ney 1 amazon-s3 amazon-redshift
我正在使用 AWS 将COPYS3 存储桶中的文件记录到 Redshift 集群内的表中。每个文件大约有 100MB,我'gziped'还没有。我现在有 600 个论文文件,而且还在增加。我的集群有 2 个dc1.large计算节点和一个领导节点。
问题是,COPY手术时间太大了,至少要40分钟。加快速度的最佳方法是什么?
1)获得更多节点或更好的节点机器?
2)如果我对文件进行 gzip,在COPY操作时间增加方面真的很重要吗?
3) 有一些设计模式在这里有帮助吗?
罗德里戈,
以下是答案:
1 - 在更改硬件设置之前,您可能可以进行一些优化。您必须进行测试以确保完成所有优化后,如果您仍然需要更好的性能,我建议使用更多节点。
2 - Gzipped 文件可能会给您带来性能提升。但我怀疑您还需要先进行其他优化。请参阅 Redshift 文档中的此建议:http : //docs.aws.amazon.com/redshift/latest/dg/c_best-practices-compress-data-files.html
3 -- 以下是您应该按重要性顺序查看的事项:
我希望 60GB 的负载比您看到的要快,即使在 2 节点集群中也是如此。检查这 6 项并告诉我们。
谢谢
@BigDataKid
| 归档时间: |
|
| 查看次数: |
2760 次 |
| 最近记录: |