AWS EMR上的Spark UI

gal*_*ine 14 amazon-emr apache-spark

我正在运行通过EMR控制台下拉列表安装Spark(1.3.1)的AWS EMR集群.Spark是当前和处理数据,但我试图找到已分配给WebUI的端口.我尝试过端口转发4040和8080没有连接.我这样转发

ssh -i ~/KEY.pem -L 8080:localhost:8080 hadoop@EMR_DNS
Run Code Online (Sandbox Code Playgroud)

1)如何找出Spark WebUI分配的端口是什么?2)如何验证Spark WebUI是否正在运行?

Chr*_*erB 11

针对YARN配置了针对EMR的Spark,因此可以通过YARN资源管理器(http://spark.apache.org/docs/latest/monitoring.html)提供的应用程序URL来使用Spark UI .因此,最简单的方法是使用SSH打开的端口使用SOCKS设置浏览器,然后从EMR控制台打开资源管理器,并单击正在运行的应用程序右侧提供的应用程序主URL.Spark History服务器在默认端口18080上可用.

有关EMR的袜子示例,请访问http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-web-interfaces.html

  • 听起来你正在使用EMR版本4.0.0.端口8088上的Hadoop ResourceManager是YARN ResourceManager.检查socks代理上的URL模式是否包含应用程序主URL显示的URL路径(可能是预期的域不同).最后,AWS EMR控制台上的启用Web连接是一个即将修复的错误. (3认同)

ud3*_*3sh 9

如果您不想按照EMR文档中的建议使用SOCKS处理浏览器设置,则可以选择此选项.

  1. 打开到主节点的ssh隧道,并将端口转发到运行spark ui的机器

    ssh -i path/to/aws.pem  -L 4040:SPARK_UI_NODE_URL:4040 hadoop@MASTER_URL
    
    Run Code Online (Sandbox Code Playgroud)

    MASTER_URL(问题中的EMR_DNS)是您可以从集群的EMR管理控制台页面获取的主节点的URL

    可以在stderr日志顶部附近看到SPARK_UI_NODE_URL.日志行看起来像:

    16/04/28 21:24:46 INFO SparkUI: Started SparkUI at http://10.2.5.197:4040
    
    Run Code Online (Sandbox Code Playgroud)
  2. 将浏览器指向localhost:4040

在运行Spark 2.6.1的EMR 4.6上试过这个

  • stderr 日志在哪里?如果我在与 master_URL 相同的注释中启动 pyspark,master_URL 和 SPRK_UL_NODE 应该相同吗? (2认同)

mah*_*hdi 5

很高兴地宣布此功能终于在 AWS 上可用。您不需要运行任何特殊命令(或配置 SSH 隧道): 在此处输入图片说明

通过单击 spark 历史服务器 ui 的链接,您将能够查看旧的应用程序日志,或访问正在运行的 spark 作业的 ui :

在此处输入图片说明

更多详情:https : //docs.aws.amazon.com/emr/latest/ManagementGuide/app-history-spark-UI.html

我希望它有帮助!