println在运行作业时Spark,我无法从Scala中的调用中找到错误日志或消息EMR.
我在哪里可以访问这些?
我提交Spark job,写在Scala以EMR使用script-runner.jar带有参数--deploy-mode设定cluster和--master设定yarn.它运行良好.
但是我没有看到我println在Amazon EMR UI"stderr,stdout etc. Furthermore if my job errors I don't see why it had an error. All I see is this in thestderr` 列出的语句中的语句:
15/05/27 20:24:44 INFO yarn.Client: Application report from ResourceManager:
application identifier: application_1432754139536_0002
appId: 2
clientToAMToken: null
appDiagnostics:
appMasterHost: ip-10-185-87-217.ec2.internal
appQueue: default
appMasterRpcPort: 0
appStartTime: 1432758272973
yarnAppState: …Run Code Online (Sandbox Code Playgroud) 原始网址:/ api/url%2已编码%2F /?with = queryParams
nginx的:
location /api {
client_max_body_size 2G;
proxy_pass https://oursite;
}
Run Code Online (Sandbox Code Playgroud)
使用此配置,我可以在通过代理时保留URL编码.如果我在"ourite"之后添加"/",它将解码URL.
问题:
现在代理后的URL仍然包含"/ api /".我只需要在保留URL编码部分的同时删除"/ api /".
嗨,我有一个EMR集群.每当我向它提交"步骤"时,它会按顺序运行它们.有没有办法同时运行"步骤"?
或者,如果您想要并发,是否适合同时启动多个集群?