Up_*_*One 5 linux csv
我有 60TB 的数据驻留在 12 个 csv 文件中。
数据将被加载到集群数据库中,其中加载过程是单线程的。为了提高我的加载性能,我需要从每个节点启动一个加载过程。
从这个角度来看,到目前为止还不错。我最大的问题是如何拆分这些数据?它是压缩的,每个 csv 文件都有大约 5TB 的数据!我试过拆分,但时间太长了!
Nik*_*Nik 1
最简单但不是最快、最有可能的方法是
unzip -p <zipfile> | split -C <size>
归档时间:
11 年,4 月 前
查看次数:
2540 次
最近记录: