如何拆分 CSV 或 JSON 文件以获得最佳 Snowflake 摄取？

Question

Snowflake 建议在摄取之前分割大文件：

为了优化负载的并行操作数量，我们建议目标是生成压缩后大小约为 100-250 MB（或更大）的数据文件。https://docs.snowflake.com/en/user-guide/data-load-considerations-prepare.html

分割大文件并压缩它们的最佳方法是什么？

Answer 1

这是我能想到的最好的命令行序列：

cat bigfile.json  | split -C 1000000000 -d -a4 - output_prefix --filter='gzip > $FILE.gz'

将第一步替换为将 JSON 或 CSV 输出到 stdout 的任何内容，具体取决于源文件。如果它是一个普通文件cat就可以，如果它是.gzthen gzcat，如果它是.zstdthenunzstd --long=31 -c file.zst等等。

然后split：

Snowflake 可以摄取.gz文件，因此最后的压缩步骤将帮助我们在网络上移动文件。