ger*_*rry 6 hadoop-yarn apache-spark
我一直在尝试通过VPN来运行Spark yarn-client模式。更具体地说,spark驱动程序将通过我的笔记本电脑在本地启动,而纱线群集位于其自己的专用网络中,可通过非桥接VPN进行访问。第一个挑战是,由于VPN是单向的,因此我的笔记本电脑无法从群集路由,因此要使纱线驱动器服务可从纱线群集访问。我设法通过在/ etc / hosts中添加条目以将公共域名指向我的本地网络IP来使此工作正常进行,例如
192.168.0.6 spark.driver.mydomain
然后设置spark.driver.host = spark.driver.mydomain。现在,spark驱动程序可以成功绑定到spark.driver.mydomain,并告诉yarn应用程序管理器连接到spark.driver.mydomain。我还需要通过修改域的DNS将spark.driver.mydomain配置为指向我的公共IP,并配置防火墙以使服务公开可用。现在,我可以从笔记本电脑上运行spark来驱动群集,几乎可以在那里进行操作。但是,SparkUI不起作用。尽管提示已成功启动spark.driver.mydomain:4040,但无法连接到SparkUI。我使用DMZ通过本地网络的防火墙打开了所有端口。我也尝试使用本地网络IP地址。我可以注意到它已被重定向到纱线资源管理器链接, http:// resourcemanager / proxy / application_id但最终还是会超时,我还没有弄清代理服务器是如何工作的。Spark会话偶尔还会吐出警告消息,例如
WARN ReliableDeliverySupervisor:与远程系统[akka.tcp:// sparkExecutor @ executor:port]的关联已失败,地址的门控时间为[5000] ms。原因是:[Disassociated]。
尽管有警告消息,但基本的火花动作均有效。仍然有很多担忧和问题
最后,这是JIRA问题,可能会导致更通用的解决方案。https://issues.apache.org/jira/browse/SPARK-5113
| 归档时间: | 
 | 
| 查看次数: | 706 次 | 
| 最近记录: |