我在一组集群上安装了spark standalone.我尝试通过集群启动脚本启动集群.我已将群集的IP地址添加到conf/slaves文件中.主设备通过无密码ssh连接到所有从设备.运行./bin/start-slaves.sh脚本后,我收到以下消息:
启动org.apache.spark.deploy.worker.Worker,登录到/root/spark-0.8.0-incubating/bin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1 -jbosstest2.out
但是master(localhost:8080)的webUI没有显示有关worker的任何信息.但是当我将localhost条目添加到我的conf/slaves文件时,会显示localhost的worker信息.
没有错误消息,终端上的消息表明工作人员已启动,但WebUI未显示任何工作人员.
这是我们使用apache spark和hadoop等大数据的第一步.
我们安装了Cloudera CDH 5.3.从cloudera经理我们选择安装spark.Spark在集群中的一个节点中启动并运行良好.
从我的机器上我做了一个连接的小应用程序来读取存储在hadoop HDFS上的文本文件.
我试图从Eclipse运行应用程序,它显示这些消息
15/02/11 14:44:01 INFO client.AppClient$ClientActor: Connecting to master spark://10.62.82.21:7077...
15/02/11 14:44:02 WARN client.AppClient$ClientActor: Could not connect to akka.tcp://sparkMaster@10.62.82.21:7077: akka.remote.InvalidAssociation: Invalid address: akka.tcp://sparkMaster@10.62.82.21:7077
15/02/11 14:44:02 WARN Remoting: Tried to associate with unreachable remote address [akka.tcp://sparkMaster@10.62.82.21:7077]. Address is now gated for 5000 ms, all messages to this address will be delivered to dead letters. Reason: Connection refused: no further information: /10.62.82.21:7077
应用程序有一个类使用以下行创建上下文
JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("Spark Count").setMaster("spark://10.62.82.21:7077"));
这个IP是机器火花工作的IP.
然后我尝试使用以下行从HDFS读取文件
sc.textFile("hdfs://10.62.82.21/tmp/words.txt")
当我运行应用程序时,我得到了