ico*_*dge 4 shell perl zip parsing etl
问候,
我接管了之前的团队并编写了处理csv文件的ETL作业.我在ubuntu上使用了shell脚本和perl的组合.csv文件很大; 他们以压缩档案的形式到达.解压缩,很多都超过30Gb - 是的,那是G
传统进程是在cron上运行的批处理作业,它完全解压缩每个文件,读取并将其第一行复制到配置文件中,然后重新压缩整个文件.有些日子,这需要很多小时的处理时间,没有任何好处.
你能否建议一种方法只从压缩档案中的每个文件中提取第一行(或前几行),而不完全解压缩档案?
该unzip命令行实用程序有-p哪些转储文件到标准输出选项.只需将其输入head,它就不会将整个文件解压缩到磁盘上.
另外,来自perldoc IO::Compress::Zip:
my ($status, $bufferRef);
my $member = $zip->memberNamed( 'xyz.txt' );
$member->desiredCompressionMethod( COMPRESSION_STORED );
$status = $member->rewindData();
die "error $status" unless $status == AZ_OK;
while ( ! $member->readIsDone() )
{
( $bufferRef, $status ) = $member->readChunk();
die "error $status" if $status != AZ_OK && $status != AZ_STREAM_END;
# do something with $bufferRef:
print $$bufferRef;
}
$member->endRead();
Run Code Online (Sandbox Code Playgroud)
修改以适应,即通过迭代文件列表$zip->memberNames(),并仅读取前几行.
| 归档时间: |
|
| 查看次数: |
1128 次 |
| 最近记录: |