相关疑难解决方法(0)

工人,工人实例和执行者之间的关系是什么?

Spark Standalone模式下,有主节点和工作节点.

这里有几个问题:

  1. 2工作者实例是否意味着一个工作节点有2个工作进程?
  2. 每个工作实例是否为特定应用程序(管理存储,任务)或一个工作节点拥有一个执行程序的执行程序?
  3. 是否有流程图解释了如何计算spark运行时间?

apache-spark apache-spark-standalone

64
推荐指数
4
解决办法
4万
查看次数

对纱线概念理解的火花

我试图了解如何在YARN群集/客户端上运行spark.我脑子里有以下问题.

  1. 是否有必要在纱线群中的所有节点上安装火花?我认为它应该是因为集群中的工作节点执行任务并且应该能够解码驱动程序发送到集群的spark应用程序中的代码(spark API)?

  2. 它在文档中说"确保HADOOP_CONF_DIRYARN_CONF_DIR指向包含Hadoop集群的(客户端)配置文件的目录".为什么客户端节点在将作业发送到集群时必须安装Hadoop?

hadoop hdfs hadoop-yarn apache-spark

37
推荐指数
2
解决办法
2万
查看次数

了解Spark:Cluster Manager,Master和Driver节点

阅读完这个问题后,我想提出更多问题:

  1. Cluster Manager是一个长期运行的服务,它在哪个节点上运行?
  2. Master和Driver节点是否可能是同一台机器?我认为应该有一个规则说明这两个节点应该是不同的?
  3. 如果Driver节点出现故障,谁负责重新启动应用程序?什么会发生什么?即主节点,Cluster Manager和Workers节点将如何参与(如果它们)以及以何种顺序?
  4. 与上一个问题类似:如果主节点出现故障,将会发生什么,以及谁负责从故障中恢复?

failover hadoop hadoop-yarn apache-spark apache-spark-standalone

14
推荐指数
2
解决办法
3783
查看次数

Spark独立编号执行器/内核控件

所以我有一个带有16个内核和64GB内存的Spark独立服务器.我在服务器上运行主服务器和工作服务器.我没有启用动态分配.我在Spark 2.0上

我不明白的是,当我提交工作并指明:

--num-executors 2
--executor-cores 2 
Run Code Online (Sandbox Code Playgroud)

只应占用4个核心.然而,当提交作业时,它会占用所有16​​个内核,并且无论如何都会绕过num-executors参数旋转8个执行程序.但如果我将executor-cores参数更改为4它将相应调整,4个执行器将旋转.

apache-spark apache-spark-standalone

7
推荐指数
1
解决办法
5301
查看次数

Spark,执行程序加载/查询数据 - 性能非常低

我的用例如下:

Wrtiting RDDto file saveAsTable(对ORC文件).每个保存创建新文件(因此1000 000着作给我1000 000ORC文件).我知道每个RDD都会创建新的ORC文件是很自然的.但是,我不知道为什么从ThriftServer查询它们的速度太慢.

我的问题是:如何理解这种奇怪的行为?
例如,SELECT COUNT(*)在1000 000行(所以相同的文件)需要大约1 minute(!).
但是,当我将1000 000行保存到一个文件时,相同的查询工作50ms.

我想了解这种差异.毕竟,1000 000文件是小编号.

apache-spark

2
推荐指数
1
解决办法
853
查看次数

SPARK分区和工作核心有什么区别?

我用它Standalone Spark Cluster来处理几个文件.当我执行驱动程序时,使用它的核心在每个工作程序上处理数据.

现在,我已经读到了Partitions,但如果它与工作核心不同,我就不会得到它.

设置cores numberpartition numbers?之间有区别吗?

java hadoop apache-spark

1
推荐指数
1
解决办法
2413
查看次数

Spark Executors - 它们是 Java 进程吗?

我是新来的火花。当我尝试在客户端模式下使用 3 个执行程序运行 spark-submit 时,我希望在执行时显示 3 个 java 进程(因为有 3 个执行程序)ps -ef

$SPARK_HOME/bin/spark-submit --num-executors 3 --class AverageCalculation --master local[1] /home/customer/SimpleETL/target/SimpleETL-0.1.jar hdfs://node1:9000/home/customer/SimpleETL/standard_input.csv
Run Code Online (Sandbox Code Playgroud)

但是,我没有看到 3 个 Java 进程。我的理解是每个 executor 进程都是一个 java 进程。请指教。谢谢。

apache-spark

1
推荐指数
1
解决办法
2031
查看次数