Lambda - 从 S3 导入 CSV 到 RDS MySQL

Question

Lambda - 从 S3 导入 CSV 到 RDS MySQL

dan*_*ang 7 amazon-web-services amazon-rds node.js aws-lambda

我有一个 Lambda 函数，它将特定的 CSV 文件从 S3 导入到 MySQL。但是，CSV 的文件大小约为 1 GB。当我运行此代码时，它不会处理并超时。

//s3 to rds
const fs = require("fs");
const AWS = require('aws-sdk');
var mysql = require('mysql');
var config = require('./config.json');
const s3 = new AWS.S3({
  accessKeyId: 'XXXXXXXXXXXXXXX',
  secretAccessKey: 'XXXXXXXXXXXXXXXXXXXXXXXXXXxx'
});
var filePath = `localfilepath`;

var pool = mysql.createPool({
  host: config.dbhost,
  user: config.dbuser,
  password: config.dbpassword,
  database: config.dbname
});
pool.getConnection((err, connection) => {
  if (err) throw err;
  console.log("Connected!" + connection);

  var s3Params = {
    Bucket: '<your_bucket_name>',
    Key: '<your_key>'
  };
  s3.getObject(s3Params, function(err, result) {
    if (err) {
      throw new Error(err);
    } else {
      console.log('file stored successfully', result);
      fs.createWriteStream(filePath).write(result.Body);
      connection.query('TRUNCATE TABLE <table_name>', (err, result) => {
        if (err) {
         throw new Error(err);
        } else {
          console.log('table truncated');
          var query = `LOAD DATA LOCAL INFILE '<file_name>' INTO table <table_name> FIELDS TERMINATED BY ','  ENCLOSED BY '"' IGNORE 1 LINES `;
          connection.query(query, function(err, result) {
            if (err) throw err;
            console.log("Result: " + result);
            connection.release();
            fs.unlinkSync(filePath);
            console.log('file deleted');
          });
        }
      });
    }

  });
})

Run Code Online (Sandbox Code Playgroud)

我怎样才能使这个工作？

Answer 1

Roh*_*num 3

根据该线程，他们确实希望在某个时候实施，但最佳猜测时间是何时。

AWS Lambda 当前在 /tmp 目录中具有 512mb 磁盘空间的“硬限制”（如此处所述），因此fs.createWriteStream(filePath).write(result.Body);由于文件大小为 1GB，因此该行不应在此处工作。该错误可能类似于"no space left on device"（通过查看现有线程）。

但是，在这种情况下，从 S3 加载文件应该可以工作。Lambda 按比例缩放内存和 CPU 大小，因此可能会由于内存不足而超时（取决于您的设置）。此链接提供了一个很好的指示，指示您需要为此设置什么（与您要加载到内存与磁盘空间的内容相关）。

我建议在此阶段将流拆分为 512mb 块（这个包可能会有所帮助）并将它们单独存储在 S3 中，这样您可以将此操作拆分为 2 个函数：

获取数据并拆分为单独的 s3 文件（同时截断表）。
将 CSV 数据从 S3 加载回 RDS

（您可以为此使用Cloudwatch Events ）

归档时间：	6 年，1 月前
查看次数：	5695 次
最近记录：	6 年前