加快 Redshift COPY 加载速度

Question

我正在使用清单通过 COPY 命令将文件加载到 Redshift 中。这些文件位于 S3 中。不幸的是，每个表大约有 2,000 个文件，所以就像

users1.csv.gz、users2.csv.gz、users3.csv.gz、users4.csv.gz 等

我不知道这是否重要，因为文件是通过清单加载的，并且清单应该对此进行并行化。话虽如此，加载表格确实很慢，我需要加快速度。

我可以采取哪些措施来加快速度？

Answer 1

就我而言，我导入了很多小表（大约 100 个表，每个表少于 1k 行）。在这种情况下，添加以下选项确实有帮助：

COMPUPDATE OFF

和

STATUPDATE OFF

请记住，这确实会跳过自动压缩和统计信息更新。有关此操作的确切后果，请参阅文档。