Google Dataproc上的Spark UI在哪里?

BAR*_*BAR 11 apache-spark google-cloud-dataproc

我应该使用哪个端口来访问Google Dataproc上的Spark UI?

我尝试了端口4040和7077以及我发现使用的一堆其他端口 netstat -pln

防火墙配置正确.

Den*_*Huo 21

Dataproc在YARN之上运行Spark,因此您将找不到典型的"Spark独立"端口; 相反,当运行Spark作业时,您可以访问端口8088,该端口将显示YARN ResourceManager的主页面.任何正在运行的Spark作业都可以通过Application Master该页面上的链接访问.Spark Application Master的页面与熟悉的Spark-standalone登录页面相同,您通常可以在端口8080上找到默认的Spark设置.

由于工作人员通过内部网络登记,YARN的链接将使用群集内部主机名(主机名应包括您的Dataproc群集名称作为前缀),但这意味着如果您从外部网络访问,链接可能无法正常工作首先; 如果您使用的是基于防火墙的方法,则必须使用外部IP地址替换主机名.

更简单的体验是使用SOCKS代理方法,如下所述:https://cloud.google.com/dataproc/cluster-web-interfaces

在这种情况下,只需使用gcloud compute ssh运行轻量级本地socks代理,然后打开指向该浏览器的浏览器,就可以正常单击所有YARN链接.