胶水dpu和最大并发的关系

3 concurrency amazon-sqs apache-spark aws-glue

我在Amazon EMR 上工作了 1 年多,但最近我们转移到aws glue进行数据处理。

我有理解之间的关系的困难no of dpusmax concurrency我们的胶水作业提供。

例如,我2 dpusmax concurrency as 2. 最重要的是,想象一下我立即two threads启动了这个端点(作业)。

假设我正在对60GB file. 我确实找到了一些帖子,但它们并没有真正帮助,例如这个这个

我可以期望在aws 胶水上运行多少作业?

j.b*_*ski 9

AWS 提供了两个关键文档来描述提到的问题:

https://docs.aws.amazon.com/glue/latest/dg/troubleshooting-service-limits.html

https://docs.aws.amazon.com/glue/latest/dg/add-job.html

基于这些文档,我们有以下与我们的主题相关的作业参数和服务限制:

服务器限制:

  • “每个帐户的并发作业运行数”
  • “每个作业的并发作业运行数”
  • “一个角色一次使用的最大 DPU”

胶水作业参数:

  • “最大并发”
  • “每个作业运行的并发 DPU”

规则是指一项粘合工作:

  • "最大并发" * "每个作业运行的并发 DPU" <= "一个角色一次使用的最大 DPU"
  • "最大并发" <= "每个作业运行的并发作业数"
  • 粘合作业运行的数量 <=“最大并发”

如果同时运行多个粘合作业,还必须满足以下规则:

  • 胶水作业运行次数 *“每个作业运行的并发 DPU”<=“角色一次使用的最大 DPU”
  • 粘合作业运行次数 <=“每个帐户的并发作业运行数”

假设您使用默认服务限制并且不同时运行其他作业:

每个作业的并发作业运行数:3

一个角色一次使用的最大 DPU 数:100

这意味着您最多可以并行运行三个相同的粘合作业,并且这些任务的总数不能超过 100 个 DPU 的限制。

例如:您可以在 DPU=30 和 max concurrency=3 的情况下运行 3 个粘合作业实例,但是当您在 DPU=50 和 max concurrency=3 的情况下运行粘合作业的 3 个实例时,您将收到以下错误:

“超出您帐户的最大并发计算容量”

我希望它会有所帮助