dan*_*ang 7 amazon-web-services amazon-rds node.js aws-lambda
我有一个 Lambda 函数,它将特定的 CSV 文件从 S3 导入到 MySQL。但是,CSV 的文件大小约为 1 GB。当我运行此代码时,它不会处理并超时。
//s3 to rds
const fs = require("fs");
const AWS = require('aws-sdk');
var mysql = require('mysql');
var config = require('./config.json');
const s3 = new AWS.S3({
accessKeyId: 'XXXXXXXXXXXXXXX',
secretAccessKey: 'XXXXXXXXXXXXXXXXXXXXXXXXXXxx'
});
var filePath = `localfilepath`;
var pool = mysql.createPool({
host: config.dbhost,
user: config.dbuser,
password: config.dbpassword,
database: config.dbname
});
pool.getConnection((err, connection) => {
if (err) throw err;
console.log("Connected!" + connection);
var s3Params = {
Bucket: '<your_bucket_name>',
Key: '<your_key>'
};
s3.getObject(s3Params, function(err, result) {
if (err) {
throw new Error(err);
} else {
console.log('file stored successfully', result);
fs.createWriteStream(filePath).write(result.Body);
connection.query('TRUNCATE TABLE <table_name>', (err, result) => {
if (err) {
throw new Error(err);
} else {
console.log('table truncated');
var query = `LOAD DATA LOCAL INFILE '<file_name>' INTO table <table_name> FIELDS TERMINATED BY ',' ENCLOSED BY '"' IGNORE 1 LINES `;
connection.query(query, function(err, result) {
if (err) throw err;
console.log("Result: " + result);
connection.release();
fs.unlinkSync(filePath);
console.log('file deleted');
});
}
});
}
});
})
Run Code Online (Sandbox Code Playgroud)
我怎样才能使这个工作?
根据该线程,他们确实希望在某个时候实施,但最佳猜测时间是何时。
AWS Lambda 当前在 /tmp 目录中具有 512mb 磁盘空间的“硬限制”(如此处所述),因此fs.createWriteStream(filePath).write(result.Body);由于文件大小为 1GB,因此该行不应在此处工作。该错误可能类似于"no space left on device"(通过查看现有线程)。
但是,在这种情况下,从 S3 加载文件应该可以工作。Lambda 按比例缩放内存和 CPU 大小,因此可能会由于内存不足而超时(取决于您的设置)。此链接提供了一个很好的指示,指示您需要为此设置什么(与您要加载到内存与磁盘空间的内容相关)。
我建议在此阶段将流拆分为 512mb 块(这个包可能会有所帮助)并将它们单独存储在 S3 中,这样您可以将此操作拆分为 2 个函数:
(您可以为此使用Cloudwatch Events )
| 归档时间: |
|
| 查看次数: |
5695 次 |
| 最近记录: |