Lambda - 从 S3 导入 CSV 到 RDS MySQL

dan*_*ang 7 amazon-web-services amazon-rds node.js aws-lambda

我有一个 Lambda 函数,它将特定的 CSV 文件从 S3 导入到 MySQL。但是,CSV 的文件大小约为 1 GB。当我运行此代码时,它不会处理并超时。

//s3 to rds
const fs = require("fs");
const AWS = require('aws-sdk');
var mysql = require('mysql');
var config = require('./config.json');
const s3 = new AWS.S3({
  accessKeyId: 'XXXXXXXXXXXXXXX',
  secretAccessKey: 'XXXXXXXXXXXXXXXXXXXXXXXXXXxx'
});
var filePath = `localfilepath`;

var pool = mysql.createPool({
  host: config.dbhost,
  user: config.dbuser,
  password: config.dbpassword,
  database: config.dbname
});
pool.getConnection((err, connection) => {
  if (err) throw err;
  console.log("Connected!" + connection);

  var s3Params = {
    Bucket: '<your_bucket_name>',
    Key: '<your_key>'
  };
  s3.getObject(s3Params, function(err, result) {
    if (err) {
      throw new Error(err);
    } else {
      console.log('file stored successfully', result);
      fs.createWriteStream(filePath).write(result.Body);
      connection.query('TRUNCATE TABLE <table_name>', (err, result) => {
        if (err) {
         throw new Error(err);
        } else {
          console.log('table truncated');
          var query = `LOAD DATA LOCAL INFILE '<file_name>' INTO table <table_name> FIELDS TERMINATED BY ','  ENCLOSED BY '"' IGNORE 1 LINES `;
          connection.query(query, function(err, result) {
            if (err) throw err;
            console.log("Result: " + result);
            connection.release();
            fs.unlinkSync(filePath);
            console.log('file deleted');
          });
        }
      });
    }

  });
})
Run Code Online (Sandbox Code Playgroud)

我怎样才能使这个工作?

Roh*_*num 3

根据线程,他们确实希望在某个时候实施,但最佳猜测时间是何时。

AWS Lambda 当前在 /tmp 目录中具有 512mb 磁盘空间的“硬限制”(如此处所述,因此fs.createWriteStream(filePath).write(result.Body);由于文件大小为 1GB,因此该行不应在此处工作。该错误可能类似于"no space left on device"(通过查看现有线程)。

但是,在这种情况下,从 S3 加载文件应该可以工作。Lambda 按比例缩放内存和 CPU 大小,因此可能会由于内存不足而超时(取决于您的设置)。此链接提供了一个很好的指示,指示您需要为此设置什么(与您要加载到内存与磁盘空间的内容相关)。

我建议在此阶段将流拆分为 512mb 块(这个包可能会有所帮助)并将它们单独存储在 S3 中,这样您可以将此操作拆分为 2 个函数:

  1. 获取数据并拆分为单独的 s3 文件(同时截断表)。
  2. 将 CSV 数据从 S3 加载回 RDS

(您可以为此使用Cloudwatch Events )