标签: apache-spark-standalone

Cluster Manager是一个长期运行的服务,它在哪个节点上运行？
Master和Driver节点是否可能是同一台机器？我认为应该有一个规则说明这两个节点应该是不同的？
如果Driver节点出现故障,谁负责重新启动应用程序？什么会发生什么？即主节点,Cluster Manager和Workers节点将如何参与(如果它们)以及以何种顺序？
与上一个问题类似:如果主节点出现故障,将会发生什么,以及谁负责从故障中恢复？

failover hadoop hadoop-yarn apache-spark apache-spark-standalone

Ram*_*ami

2017 10-07

14
推荐指数

2
解决办法

3783
查看次数

Spark Master失败后会发生什么？

驱动程序是否需要持续访问主节点？或者只需要获得初始资源分配？如果在创建Spark上下文后master不可用,会发生什么？这是否意味着申请会失败？

apache-spark apache-spark-standalone

作者

2016 03-06

11
推荐指数

3
解决办法

2998
查看次数

如何在独立主服务器中并行运行多个spark应用程序

使用Spark(1.6.1)独立主机,我需要在同一个spark master上运行多个应用程序. 所有申请在第一个申请后提交,始终保持'WAIT'状态.我还观察到,一个运行中包含所有核心工人的总和.我已经尝试过限制它,SPARK_EXECUTOR_CORES但是它用于纱线配置,而我正在运行的是"独立主机".我尝试在同一个主人上运行许多工作人员,但每次首次提交的申请都会消耗所有工人.

config high-availability apache-spark apache-spark-standalone

San*_*alp

2017 04-20

9
推荐指数

1
解决办法

5971
查看次数

Spark独立编号执行器/内核控件

所以我有一个带有16个内核和64GB内存的Spark独立服务器.我在服务器上运行主服务器和工作服务器.我没有启用动态分配.我在Spark 2.0上

我不明白的是,当我提交工作并指明:

--num-executors 2
--executor-cores 2

Run Code Online (Sandbox Code Playgroud)

只应占用4个核心.然而,当提交作业时,它会占用所有16个内核,并且无论如何都会绕过num-executors参数旋转8个执行程序.但如果我将executor-cores参数更改为4它将相应调整,4个执行器将旋转.

apache-spark apache-spark-standalone

the*_*ing

2018 04-16

7
推荐指数

1
解决办法

5301
查看次数

如何使Spark驱动程序对Master重启有弹性？

我有一个Spark Standalone(不是YARN/Mesos)集群和一个运行(在客户端模式下)的驱动程序应用程序,它与该集群通信以执行其任务.但是,如果我关闭并重新启动Spark主服务器和工作程序,则驱动程序不会重新连接到主服务器并恢复其工作.

也许我对Spark Master和驱动程序之间的关系感到困惑.在这种情况下,主人是否负责重新连接到驱动程序？如果是这样,主服务器是否将其当前状态序列化到某个可以在重启时恢复的磁盘？

apache-spark apache-spark-standalone

dOx*_*xxx

2016 10-14

7
推荐指数

1
解决办法

1066
查看次数

Spark Apache 中的 Worker 无法连接到 master

我正在使用独立集群管理器部署 Spark Apache 应用程序。我的架构使用 2 台 Windows 机器：一组作为主机，另一组作为从机（工作程序）。

Master：我在其上运行：\bin>spark-class org.apache.spark.deploy.master.Master这是 Web UI 显示的内容：

Slave：我在其上运行：\bin>spark-class org.apache.spark.deploy.worker.Worker spark://192.*.*.186:7077这就是 Web UI 显示的内容：

问题是worker节点无法连接到master节点，并显示以下错误：

17/09/26 16:05:17 INFO Worker: Connecting to master 192.*.*.186:7077...
17/09/26 16:05:22 WARN Worker: Failed to connect to master 192.*.*.186:7077
org.apache.spark.SparkException: Exception thrown in awaitResult:
    at org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala:205)
    at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:75)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:100)
    at org.apache.spark.rpc.RpcEnv.setupEndpointRef(RpcEnv.scala:108)
    at org.apache.spark.deploy.worker.Worker$$anonfun$org$apache$spark$deploy$worker$Worker$$tryRegisterAllMasters$1$$anon$1.run(Worker.scala:241)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
  Caused by: java.io.IOException: Failed to connect to /192.*.*.186:7077
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:232)
    at org.apache.spark.network.client.TransportClientFactory.createClient(TransportClientFactory.java:182)
    at …

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-standalone

Mèh*_*ida

2022 08-14

7
推荐指数

1
解决办法

8827
查看次数

驱动程序命令关闭后，Spark 工作器停止

基本上，主节点也作为从节点之一执行。一旦 master 上的 slave 完成，它就会调用 SparkContext 停止，因此这个命令会传播到所有在处理过程中停止执行的 slave。

错误登录其中一名工作人员：

信息 SparkHadoopMapRedUtil：尝试_201612061001_0008_m_000005_18112：已提交

INFO Executor：已完成阶段 8.0 中的任务 5.0 (TID 18112)。发送给驱动程序的 2536 字节结果

信息 CoarseGrainedExecutorBackend：驱动程序命令关闭

错误 CoarseGrainedExecutorBackend：收到信号终止

apache-spark apache-spark-standalone

poo*_*ngh

2020 06-20

6
推荐指数

1
解决办法

7543
查看次数