Som*_*Guy 2 optimization performance amazon-redshift
我正在使用清单通过 COPY 命令将文件加载到 Redshift 中。这些文件位于 S3 中。不幸的是,每个表大约有 2,000 个文件,所以就像
users1.csv.gz、users2.csv.gz、users3.csv.gz、users4.csv.gz 等
我不知道这是否重要,因为文件是通过清单加载的,并且清单应该对此进行并行化。话虽如此,加载表格确实很慢,我需要加快速度。
我可以采取哪些措施来加快速度?
就我而言,我导入了很多小表(大约 100 个表,每个表少于 1k 行)。在这种情况下,添加以下选项确实有帮助:
COMPUPDATE OFF
Run Code Online (Sandbox Code Playgroud)
和
STATUPDATE OFF
Run Code Online (Sandbox Code Playgroud)
请记住,这确实会跳过自动压缩和统计信息更新。有关此操作的确切后果,请参阅文档。