3 concurrency amazon-sqs apache-spark aws-glue
我在Amazon EMR 上工作了 1 年多,但最近我们转移到aws glue进行数据处理。
我有理解之间的关系的困难no of dpus和max concurrency我们的胶水作业提供。
例如,我2 dpus用max concurrency as 2. 最重要的是,想象一下我立即two threads启动了这个端点(作业)。
假设我正在对60GB file. 我确实找到了一些帖子,但它们并没有真正帮助,例如这个和这个
我可以期望在aws 胶水上运行多少作业?
AWS 提供了两个关键文档来描述提到的问题:
https://docs.aws.amazon.com/glue/latest/dg/troubleshooting-service-limits.html
https://docs.aws.amazon.com/glue/latest/dg/add-job.html
基于这些文档,我们有以下与我们的主题相关的作业参数和服务限制:
服务器限制:
胶水作业参数:
规则是指一项粘合工作:
如果同时运行多个粘合作业,还必须满足以下规则:
假设您使用默认服务限制并且不同时运行其他作业:
每个作业的并发作业运行数:3
一个角色一次使用的最大 DPU 数:100
这意味着您最多可以并行运行三个相同的粘合作业,并且这些任务的总数不能超过 100 个 DPU 的限制。
例如:您可以在 DPU=30 和 max concurrency=3 的情况下运行 3 个粘合作业实例,但是当您在 DPU=50 和 max concurrency=3 的情况下运行粘合作业的 3 个实例时,您将收到以下错误:
“超出您帐户的最大并发计算容量”
我希望它会有所帮助