小编ico*_*dge的帖子

在压缩存档内的文本文件上运行`head`,而不解压缩存档

问候,

我接管了之前的团队并编写了处理csv文件的ETL作业.我在ubuntu上使用了shell脚本和perl的组合.csv文件很大; 他们以压缩档案的形式到达.解压缩,很多都超过30Gb - 是的,那是G

传统进程是在cron上运行的批处理作业,它完全解压缩每个文件,读取并将其第一行复制到配置文件中,然后重新压缩整个文件.有些日子,这需要很多小时的处理时间,没有任何好处.

你能否建议一种方法只从压缩档案中的每个文件中提取第一行(或前几行),而不完全解压缩档案?

shell perl zip parsing etl

4
推荐指数
1
解决办法
1128
查看次数

标签 统计

etl ×1

parsing ×1

perl ×1

shell ×1

zip ×1