Joh*_*ich 6 java workflow amazon-s3 amazon-web-services aws-batch
我写了一个从s3存储桶触发的lambda,以解压缩zip文件并处理其中的文本文档。由于lambda内存的限制,我需要将流程移至类似AWS Batch的位置。如果我错了,请纠正我,但我的工作流程应如下所示。
我相信我需要编写一个lambda来将s3存储桶的位置放在亚马逊SQS上,因为AWS批处理可以读取该位置并进行所有解压缩/数据处理,因为它们的内存更大。
这是我当前的lambda,它接收由s3存储桶触发的事件,检查它是否是一个zip文件,然后将该s3键的名称推送到SQS。我应该告诉AWS Batch在我的lambda中开始读取队列吗?一般而言,我对AWS完全陌生,不确定从这里开始。
public class dockerEventHandler implements RequestHandler<S3Event, String> {
private static BigData app = new BigData();
private static DomainOfConstants CONST = new DomainOfConstants();
private static Logger log = Logger.getLogger(S3EventProcessorUnzip.class);
private static AmazonSQS SQS;
private static CreateQueueRequest createQueueRequest;
private static Matcher matcher;
private static String srcBucket, srcKey, extension, myQueueUrl;
@Override
public String handleRequest(S3Event s3Event, Context context)
{
try {
for (S3EventNotificationRecord record : s3Event.getRecords())
{
srcBucket = record.getS3().getBucket().getName();
srcKey = record.getS3().getObject().getKey().replace('+', ' ');
srcKey = URLDecoder.decode(srcKey, "UTF-8");
matcher = Pattern.compile(".*\\.([^\\.]*)").matcher(srcKey);
if (!matcher.matches())
{
log.info(CONST.getNoConnectionMessage() + srcKey);
return "";
}
extension = matcher.group(1).toLowerCase();
if (!"zip".equals(extension))
{
log.info("Skipping non-zip file " + srcKey + " with extension " + extension);
return "";
}
log.info("Sending object location to key" + srcBucket + "//" + srcKey);
//pass in only the reference of where the object is located
createQue(CONST.getQueueName(), srcKey);
}
}
catch (IOException e)
{
log.error(e);
}
return "Ok";
}
/*
*
* Setup connection to amazon SQS
* TODO - Find updated api for sqs connection to eliminate depreciation
*
* */
@SuppressWarnings("deprecation")
public static void sQSConnection() {
app.setAwsCredentials(CONST.getAccessKey(), CONST.getSecretKey());
try{
SQS = new AmazonSQSClient(app.getAwsCredentials());
Region usEast1 = Region.getRegion(Regions.US_EAST_1);
SQS.setRegion(usEast1);
}
catch(Exception e){
log.error(e);
}
}
//Create new Queue
public static void createQue(String queName, String message){
createQueueRequest = new CreateQueueRequest(queName);
myQueueUrl = SQS.createQueue(createQueueRequest).getQueueUrl();
sendMessage(myQueueUrl,message);
}
//Send reference to the s3 objects location to the queue
public static void sendMessage(String SIMPLE_QUE_URL, String S3KeyName){
SQS.sendMessage(new SendMessageRequest(SIMPLE_QUE_URL, S3KeyName));
}
//Fire AWS batch to pull from que
private static void initializeBatch(){
//TODO
}
Run Code Online (Sandbox Code Playgroud)
我已经安装了泊坞窗并了解了泊坞窗映像。我相信我的docker映像应包含所有代码以在一个docker映像/容器中读取队列,解压缩,处理文件并将其安装到RDS。
我正在寻找可以完成类似任务的人,他们可以分享帮助。类似于以下内容:
S3先生:嘿,我有一个文件
Lambda先生:好的,S3,我看到了,嘿,请问您能解压缩并对此进行处理吗
Batch先生:Gotchya lambda先生,请妥善保管,然后将其放入RDS或某些数据库中。
我还没有编写class / docker映像,但是我已经完成了处理/解压缩并完成rds的所有代码。由于某些文件1GB或更大,Lambda仅限于内存。
好的,在浏览完Batch上的AWS文档之后,您不需要SQS队列。批处理具有一个称为“作业队列”的概念,该概念类似于SQS FIFO队列,但不同之处在于这些作业队列具有优先级,并且其中的作业可以依赖于其他作业。基本过程是:
归档时间: |
|
查看次数: |
5441 次 |
最近记录: |