我已经拥有一个运行Hadoop 1.0.0的3台机器(ubuntu1,ubuntu2,ubuntu3,VM virtualbox)的集群.我在每台机器上安装了火花.ub1是我的主节点,其他节点作为slave工作.我的问题是究竟什么是火花驱动器?我们应该设置一个IP和端口来激活驱动器spark.driver.host
以及它将被执行和定位的位置?(主人或奴隶)
我正在尝试使用Mllib构建一个非常简单的scala独立应用程序,但在尝试构建程序时出现以下错误:
Object Mllib is not a member of package org.apache.spark
Run Code Online (Sandbox Code Playgroud)
然后,我意识到我必须添加Mllib作为依赖,如下所示:
version := "1"
scalaVersion :="2.10.4"
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % "1.1.0",
"org.apache.spark" %% "spark-mllib" % "1.1.0"
)
Run Code Online (Sandbox Code Playgroud)
但是,我在这里得到一个错误:
unresolved dependency spark-core_2.10.4;1.1.1
: not found
所以我不得不修改它
"org.apache.spark" % "spark-core_2.10" % "1.1.1",
但仍有一个错误说:
unresolved dependency spark-mllib;1.1.1 : not found
任何人都知道如何在.sbt
文件中添加Mllib的依赖关系?
我通过连接到一个拥有一个主服务器和两个从服务器的spark独立集群来运行spark-1.0.0.我通过Spark-submit运行wordcount.py,实际上它从HDFS读取数据并将结果写入HDFS.到目前为止一切都很好,结果将正确写入HDFS.但令我担心的是,当我为每个工人检查Stdout时,它是空的我不知道它是否是空的?我在stderr中得到了关注:
某些的stderr日志页面(app-20140704174955-0002)
Spark
Executor Command: "java" "-cp" "::
/usr/local/spark-1.0.0/conf:
/usr/local/spark-1.0.0
/assembly/target/scala-2.10/spark-assembly-1.0.0-hadoop1.2.1.jar:/usr/local/hadoop/conf" "
-XX:MaxPermSize=128m" "-Xms512M" "-Xmx512M" "org.apache.spark.executor.CoarseGrainedExecutorBackend
" "akka.tcp://spark@master:54477/user/CoarseGrainedScheduler" "0" "slave2" "1
" "akka.tcp://sparkWorker@slave2:41483/user/Worker" "app-20140704174955-0002"
========================================
14/07/04 17:50:14 ERROR CoarseGrainedExecutorBackend:
Driver Disassociated [akka.tcp://sparkExecutor@slave2:33758] ->
[akka.tcp://spark@master:54477] disassociated! Shutting down.
Run Code Online (Sandbox Code Playgroud)