将文件从 s3 复制到 redshift 花费的时间太长

Question

我正在使用 AWS 将COPYS3 存储桶中的文件记录到 Redshift 集群内的表中。每个文件大约有 100MB，我'gziped'还没有。我现在有 600 个论文文件，而且还在增加。我的集群有 2 个dc1.large计算节点和一个领导节点。

问题是，COPY手术时间太大了，至少要40分钟。加快速度的最佳方法是什么？

1）获得更多节点或更好的节点机器？

2）如果我对文件进行 gzip，在COPY操作时间增加方面真的很重要吗？

3) 有一些设计模式在这里有帮助吗？

Answer 1

罗德里戈，

以下是答案：

1 - 在更改硬件设置之前，您可能可以进行一些优化。您必须进行测试以确保完成所有优化后，如果您仍然需要更好的性能，我建议使用更多节点。

2 - Gzipped 文件可能会给您带来性能提升。但我怀疑您还需要先进行其他优化。请参阅 Redshift 文档中的此建议：http : //docs.aws.amazon.com/redshift/latest/dg/c_best-practices-compress-data-files.html

3 -- 以下是您应该按重要性顺序查看的事项：

我希望 60GB 的负载比您看到的要快，即使在 2 节点集群中也是如此。检查这 6 项并告诉我们。

谢谢

@BigDataKid