小编Rob*_*ado的帖子

spark-submit EMR使用boto3客户端提交时失败

我正在尝试使用boto3客户端为EMR执行spark-submit.执行下面的代码后,提交EMR步骤,几秒钟后失败.如果在EMR主站上手动执行,则步骤日志中的实际命令行正在运行.

控制器日志显示几乎不可读的垃圾,看起来像是同时写入的几个进程.

UPD:尝试过command-runner.jar和EMR版本4.0.0和4.1.0

任何想法都赞赏.

代码片段:

class ProblemExample:
    def run(self):
        session = boto3.Session(profile_name='emr-profile')
        client = session.client('emr')
        response = client.add_job_flow_steps(
        JobFlowId=cluster_id,
        Steps=[
            {
                'Name': 'string',
                'ActionOnFailure': 'CONTINUE',
                'HadoopJarStep': {
                    'Jar': 's3n://elasticmapreduce/libs/script-runner/script-runner.jar',
                    'Args': [
                        '/usr/bin/spark-submit',
                        '--verbose',
                        '--class',
                        'my.spark.job',
                        '--jars', '<dependencies>',
                        '<my spark job>.jar'
                    ]
                }
            },
        ]
    )
Run Code Online (Sandbox Code Playgroud)

python emr apache-spark boto3

8
推荐指数
1
解决办法
4312
查看次数

标签 统计

apache-spark ×1

boto3 ×1

emr ×1

python ×1