使用lambda函数解压缩S3中的档案真的很懒散

Question

使用lambda函数解压缩S3中的档案真的很懒散

rus*_*ell 6 amazon-s3 amazon-web-services node.js aws-lambda

我的公司正在将大型存档文件上传到S3,现在希望它们在S3上解压缩.我写了一个基于解压缩的lambda函数,由一个文件到达xxx-zip存储桶触发,它从S3流式传输zip文件,解压缩流,然后将各个文件流式传输到xxx-data存储桶.

它可以工作,但我发现它比我预期的要慢得多 - 即使在测试文件,zip大小约为500k并且保存大约500个文件,这是超时设置60秒的超时.这看起来是对的吗？在使用节点运行的本地系统上,它比这更快.在我看来,由于文件正在亚马逊的云中移动,因此延迟应该很短,并且由于文件正在流式传输,因此实际花费的时间应该是解压缩流所花费的时间.

有没有一个固有的原因,为什么这不起作用,或者我的代码中有什么东西导致它这么慢？这是我第一次使用node.js,所以我可能会做得很糟糕.或者,有没有更好的方法来做到谷歌找不到的？

这是代码的大纲(BufferStream是我编写的一个类,它将返回的Buffer包装s3.getObject()成一个readStream)

var aws = require('aws-sdk');
var s3 = new aws.S3({apiVersion: '2006-03-01'});
var unzip = require('unzip');
var stream = require('stream');
var util = require( "util" );
var fs = require('fs');

exports.handler = function(event, context) {
    var zipfile = event.Records[0].s3.object.key;
    s3.getObject({Bucket:SOURCE_BUCKET, Key:zipfile}, 
    function(err, data) {
        var errors = 0;
        var total = 0;
        var successful = 0;
        var active = 0;
        if (err) {
            console.log('error: ' + err);
        }
        else {
            console.log('Received zip file ' + zipfile);
            new BufferStream(data.Body)
            .pipe(unzip.Parse()).on('entry', function(entry) {
                total++;
                var filename = entry.path;
                var in_process = ' (' + ++active + ' in process)';
                console.log('extracting ' + entry.type + ' ' + filename + in_process );
                s3.upload({Bucket:DEST_BUCKET, Key: filename, Body: entry}, {},
                function(err, data) {
                    var remaining = ' (' + --active + ' remaining)';
                    if (err) {
                        // if for any reason the file is not read discard it
                        errors++
                        console.log('Error pushing ' + filename + ' to S3' + remaining + ': ' + err);
                        entry.autodrain();
                    }
                    else {
                        successful++;
                        console.log('successfully wrote ' + filename + ' to S3' + remaining);
                    }
                });
            });
            console.log('Completed, ' + total + ' files processed, ' + successful + ' written to S3, ' + errors + ' failed');
            context.done(null, '');
        }
    });
}

Run Code Online (Sandbox Code Playgroud)

Answer 1

Shi*_*lts 3

我怀疑您使用的解压缩模块是一个 JavaScript 实现，它允许您解压缩 zip 文件 - 这非常慢。

我建议使用 gzip 来压缩文件并使用 C 编译的内部zlib库，应该提供更好的性能。

如果您选择坚持使用 zip，您可以联系亚马逊支持并要求增加 lambda 函数的 60 秒限制。

经过更多测量后，我发现导致问题的是文件的大小，而不是数量。如果存档包含一个 5MB 的文本文件，那么仅此一项就花费了大部分时间。所以看起来这不是正确的方法。我将把它写在 SQS 的 EC2 轮询上。 (4认同)

归档时间：	10 年，8 月前
查看次数：	10958 次
最近记录：	8 年，7 月前