Jac*_*ack 6 mapreduce apache-spark
我正在AWS上设置Spark 0.9,并且发现在启动交互式Pyspark shell时,我的执行者/远程工作者首先被注册:
14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Registered executor:
Actor[akka.tcp://sparkExecutor@ip-xx-xx-xxx-xxx.ec2.internal:54110/user/
Executor#-862786598] with ID 0
Run Code Online (Sandbox Code Playgroud)
在我有机会运行任何东西之前,几乎立即解除了关联:
14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Executor 0 disconnected,
so removing it
14/07/08 22:48:05 ERROR scheduler.TaskSchedulerImpl: Lost an executor 0 (already
removed): remote Akka client disassociated
Run Code Online (Sandbox Code Playgroud)
知道什么可能是错的吗?我已经尝试调整JVM选项spark.akka.frameSize和spark.akka.timeout,但我很确定这不是问题,因为(1)我没有运行任何东西,以及(2)我的执行程序在启动后几秒钟断开连接,这完全在默认的100秒超时内.
谢谢!
插口
我有一个非常相似的问题,即使不一样。一旦工作人员使用与主人认为的相同的名称连接到主人,它就开始为我工作。
我的日志消息类似于:
ERROR remote.EndpointWriter: AssociationError [akka.tcp://sparkWorker@idc1-hrm1.heylinux.com:7078] -> [akka.tcp://sparkMaster@vagrant-centos64.vagrantup.com:7077]: Error [Association failed with [akka.tcp://sparkMaster@vagrant-centos64.vagrantup.com:7077]].
ERROR remote.EndpointWriter: AssociationError [akka.tcp://sparkWorker@192.168.121.127:7078] -> [akka.tcp://sparkMaster@idc1-hrm1.heylinux.com:7077]: Error [Association failed with [akka.tcp://sparkMaster@idc1-hrm1.heylinux.com:7077]]
WARN util.Utils: Your hostname, idc1-hrm1 resolves to a loopback address: 127.0.0.1; using 192.168.121.187 instead (on interface eth0)
所以检查master的日志,看看它认为自己有什么名字。然后对工人使用同样的名字。
| 归档时间: |
|
| 查看次数: |
3285 次 |
| 最近记录: |