AWS Glue 中 1 个 DPU 中的最大并发任务数

mig*_*use 4 amazon-web-services apache-spark apache-spark-sql aws-glue

AWS Glue 中的标准 DPU 配有 4 个 vCPU 和 2 个执行器。我对可以与此配置并行运行的最大并发任务数感到困惑。具有 4vcpu 和 2 个执行器的单个 DPU 上是 4 个还是 8 个?

Hyr*_*a92 5

我与 AWS Glue 支持团队就此进行了类似的讨论,我将与您分享他们告诉我的有关 Glue 配置的内容。以标准和 G1.X 配置为例。

标准DPU配置:

  • 1 个 DPU 为主节点保留
  • 1 个为 Driver/ApplicationMaster 保留的执行器
  • 每个DPU配置2个执行器
  • 每个执行器配置5.5 GB内存
  • 每个执行器配置4个核

G.1X WorkerType配置:

  • 为主节点添加 1 个 DPU
  • 1 个 DPU 保留给 Driver/ApplicationMaster
  • 每个worker配置1个executor
  • 每个执行器配置10GB内存
  • 每个执行器配置8个核

例如,如果我们有一个具有 21 DPU 的标准配置作业,则意味着我们有:

  • 1 个 DPU 为主站保留
  • 20 DPU x 2 = 40 个执行者
  • 40 个执行者 - 1 个驱动程序/AM = 39 个执行者

最终我们得到的内核总数为 156 个。这意味着,您的作业有 156 个槽位可供执行。例如,如果您从 S3 读取文件,这意味着您将能够并行接受 156 个输入文件。

希望能帮助到你。