加快 Redshift COPY 加载速度

Som*_*Guy 2 optimization performance amazon-redshift

我正在使用清单通过 COPY 命令将文件加载到 Redshift 中。这些文件位于 S3 中。不幸的是,每个表大约有 2,000 个文件,所以就像

users1.csv.gz、users2.csv.gz、users3.csv.gz、users4.csv.gz 等

我不知道这是否重要,因为文件是通过清单加载的,并且清单应该对此进行并行化。话虽如此,加载表格确实很慢,我需要加快速度。

我可以采取哪些措施来加快速度?

Ben*_*ier 5

就我而言,我导入了很多小表(大约 100 个表,每个表少于 1k 行)。在这种情况下,添加以下选项确实有帮助:

COMPUPDATE OFF
Run Code Online (Sandbox Code Playgroud)

STATUPDATE OFF
Run Code Online (Sandbox Code Playgroud)

请记住,这确实会跳过自动压缩和统计信息更新。有关此操作的确切后果,请参阅文档。