相关疑难解决方法(0)

在压缩存档内的文本文件上运行`head`,而不解压缩存档

问候,

我接管了之前的团队并编写了处理csv文件的ETL作业.我在ubuntu上使用了shell脚本和perl的组合.csv文件很大; 他们以压缩档案的形式到达.解压缩,很多都超过30Gb - 是的,那是G

传统进程是在cron上运行的批处理作业,它完全解压缩每个文件,读取并将其第一行复制到配置文件中,然后重新压缩整个文件.有些日子,这需要很多小时的处理时间,没有任何好处.

你能否建议一种方法只从压缩档案中的每个文件中提取第一行(或前几行),而不完全解压缩档案?

shell perl zip parsing etl

4
推荐指数
1
解决办法
1128
查看次数

gzip 文件大小是如何编码的?

gzip 文件格式包含在压缩文件的最后 4 个字节中编码的(未压缩/原始)文件大小。“gzip -l”命令报告压缩和未压缩的大小、压缩率、原始文件名。

环顾 stackoverflow,有几次提到解码最后 4 个字节中编码的大小。

大小的编码是什么?Big-endian(最高有效字节在前)、Little-endian(最低有效字节在前),值是有符号还是无符号?

这段代码片段似乎对我有用,

FILE* fh; //assume file handle opened
unsigned char szbuf[4];
struct stat statbuf;
fstat(fn,&statbuf);
unsigned long clen=statbuf.st_size;
fseek(fh,clen-4,SEEK_SET);
int count=fread(szbuf,1,4,fh);
unsigned long ulen = ((((((szbuf[4-1] << 8) | szbuf[3-1]) << 8) | szbuf[2-1]) << 8) | szbuf[1-1]);
Run Code Online (Sandbox Code Playgroud)

这里有几个相关的帖子,似乎暗示了小端和无符号长(0..4GB-1)。

确定 GZIP 文件的未压缩大小

GZIPOutputStream 不更新 Gzip 大小字节

确定 gzip 中文件的大小

Gzip.org 有更多关于 Gzip 的信息

c c++ encoding gzip

3
推荐指数
1
解决办法
942
查看次数

标签 统计

c ×1

c++ ×1

encoding ×1

etl ×1

gzip ×1

parsing ×1

perl ×1

shell ×1

zip ×1