AWS:将作业参数值从步骤函数传递给粘合作业

nai*_*kum 4 amazon-web-services aws-step-functions aws-glue

我创建了 3 个 Glue 作业,其中作业参数键/值之一如下所示: runid id

如果我像这样使用 AWS CLI 执行 Glue 作业,则它工作正常: awsglue start-job-run --jobname $job --arguments='--runid="Runid_10"'

这 3 个 Glue 作业位于一步函数和状态机内,定义为:

{
  "Comment":"Sample Step Function",
  "StartAt":"First Glue Job",
  "States": {
      "First Glue Job":{
         "Type": "Task",
         "Resource": "arn:aws:states:::glue:startJobRun.sync",
         "Parameters": {
            "JobName": "GlueJob-Firstjob"
      },
      "Next": "Second Glue Job"
    },
    "Second Glue Job":{
         "Type": "Task",
         "Resource": "arn:aws:states:::glue:startJobRun.sync",
         "Parameters": {
            "JobName": "GlueJob-Secondjob"
      },
      "Next": "Third Glue Job"
    },
    "Third Glue Job":{
         "Type": "Task",
         "Resource": "arn:aws:states:::glue:startJobRun.sync",
         "Parameters": {
            "JobName": "GlueJob-Thirdjob"
      },
      "End": true
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

如果我尝试使用输入参数执行此状态机,则此输入参数值不会传递给 Gluejob。我是否需要修改状态机作业定义以将输入参数值传递给已作为状态机运行的一部分传递的胶水作业。请指导我该怎么做。

aws stepfunctions start-execution --state-machine-arn arn:aws:states:us-east-1:123456789012:stateMachine:HelloWorld --input "{runid":"Runid_10"}

状态机正在成功执行,但 Runid 值未传递给 Gluejob 参数。

请让我知道如何传递具有内部状态机定义的胶水作业参数值。


我正在使用这样的 Arguments 参数:

{
  "Comment":"Sample Step Function",
  "StartAt":"First Glue Job",
  "States": {
      "First Glue Job":{
         "Type": "Task",
         "Resource": "arn:aws:states:::glue:startJobRun.sync",
         "Parameters": {
            "JobName": "GlueJob-Firstjob",
            "Arguments": {
                  "--runid":"$.runid"
                }
      },
      "ResultPath" : "$.runid",
      "Next": "Second Glue Job"
    },
    "Second Glue Job":{
         "Type": "Task",
         "Resource": "arn:aws:states:::glue:startJobRun.sync",
         "Parameters": {
            "JobName": "GlueJob-Secondjob",
            "Arguments": {
                  "--runid":"$.runid"
                }
      },
      "ResultPath" : "$.runid",
      "Next": "Third Glue Job"
    },
    "Third Glue Job":{
         "Type": "Task",
         "Resource": "arn:aws:states:::glue:startJobRun.sync",
         "Parameters": {
            "JobName": "GlueJob-Thirdjob",
            "Arguments": {
                  "--runid":"$.runid"
                }
      },
      "ResultPath" : "$.runid",
      "End": true
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

在执行“开始执行”状态机期间,在输入可选窗口中传递输入 JSON {"--runid" : "runid_10"}。

请注意: runid_n ,其中 n 是整数并且会改变。

我将 runid_10 值附加到 Glue 作业中的输出文件,输出文件类似于 GlueJob-Firstjob_output_runid_10.csv

Fro*_*sty 8

您需要将其添加到属性内ArgumentsParameters因此它将类似于:

"Parameters" : {
           "JobName": "GlueJob-Firstjob",
           "Arguments": {
                  "--run_id":"$.runid"
                }

}
Run Code Online (Sandbox Code Playgroud)

供您参考,您可以查看支持的参数部分:此处

更新: 您需要在任务定义中添加 ResultPath,例如:

"First Glue Job":{
         "Type": "Task",
         "Resource": "arn:aws:states:::glue:startJobRun.sync",
         "Parameters": {
            "JobName": "GlueJob-Firstjob",
            "Arguments": {
                  "--runid":"$.runid"
                }
      },
       "ResultPath": "$.output"
}
Run Code Online (Sandbox Code Playgroud)

  • 参数名称必须以 .$ 结尾,否则会被解释为静态值: "Arguments": { "--runid.$":"$.runid" } (4认同)