S3-如何获得文件的快速行数?wc -l太慢

too*_*op4 2 amazon-s3 boto amazon-web-services aws-cli boto3

是否有人可以快速获取S3中托管的文件的行数?最好使用CLI,s3api,但我也对python / boto开放。注意:解决方案必须非交互式运行,即隔夜运行。

对,不,我正在这样做,它可以工作,但是一个20GB的文件大约需要10分钟:

 aws cp s3://foo/bar - | wc -l
Run Code Online (Sandbox Code Playgroud)

Joh*_*ein 7

这两种方法可能对您有用...

Amazon S3具有一项称为S3 Select的新功能,可让您查询存储在S3上的文件。

您可以对文件中的记录(行)数进行计数,甚至可以在GZIP文件上使用。结果可能因文件格式而异。

S3选择

Amazon Athena也可能是一个类似的选择。它可以查询存储在Amazon S3中的文件。

  • AWS 表示“超出了最大输入文件大小 128 MB。此文件为 397.6 MB。要处理更大的文件,请使用 API。” (2认同)