标签: hadoop-yarn

通过npm安装后找不到yarn命令

根据yarn v2 的yarn 安装,他们希望您使用npm install -g yarn. 所以我sudo npm install -g yarn在 Ubuntu 20.04 上运行。但我这样做后,它说找不到命令。

\n
\xe2\x9d\xaf sudo npm install -g yarn\n\n> yarn@1.22.10 preinstall /usr/local/lib/node_modules/yarn\n> :; (node ./preinstall.js > /dev/null 2>&1 || true)\n\n\n\xe2\x9d\xaf yarn --version\nzsh: command not found: yarn\n
Run Code Online (Sandbox Code Playgroud)\n

javascript ubuntu node.js npm hadoop-yarn

26
推荐指数
4
解决办法
11万
查看次数

Hadoop namenode:单点故障

Hadoop架构中的Namenode是单点故障.

拥有大型Hadoop集群的人如何应对这个问题?

是否有一个行业认可的解决方案运行良好,其中一个辅助Namenode接管以防主要的一个失败?

hadoop mapreduce hdfs hadoop-yarn hadoop2

25
推荐指数
2
解决办法
1万
查看次数

如何在YARN中运行Kafka连接工作程序?

我正在玩Kafka-Connect.我已经HDFS connector独立模式分布式模式下工作了.

他们宣传工作人员(负责运行连接器)可以通过管理YARN 但是,我还没有看到任何描述如何实现这一目标的文档.

我如何YARN开始执行工作人员?如果没有具体的方法,是否有关于如何让应用程序在其中运行的通用方法YARN

我已经使用YARN过SPARK,spark-submit但我无法弄清楚如何让连接器运行YARN.

apache-kafka hadoop-yarn apache-kafka-connect

25
推荐指数
1
解决办法
1211
查看次数

如何在AWS EMR上重新启动yarn

我正在使用Hadoop 2.6.0(emr-4.2.0图像).我已经做了一些更改,yarn-site.xml并希望重新启动纱线以使更改生效.

有没有一个命令用我可以做到这一点?

hadoop emr hadoop-yarn

25
推荐指数
2
解决办法
2万
查看次数

如何限制Spark作业失败的重试次数?

我们正在运行Spark作业spark-submit,我可以看到在失败的情况下将重新提交作业.

如果纱线容器出现故障或者有什么异常,我该如何阻止它进行尝试#2?

在此输入图像描述

hadoop-yarn apache-spark

24
推荐指数
3
解决办法
2万
查看次数

如何设置Spark执行器的数量?

我如何配置Java(或Scala)代码量的执行程序有SparkConfigSparkContext?我经常看到2个执行者.看起来spark.default.parallelism不起作用,是关于不同的东西.

我只需要将执行程序的数量设置为等于群集大小,但总是只有2个.我知道我的簇大小.如果这很重要,我会在YARN上运行.

java scala cluster-computing hadoop-yarn apache-spark

22
推荐指数
4
解决办法
4万
查看次数

无法加载由 NPM 安装的应用程序(例如文件 C:\Users\name\AppData\Roaming\npm\ng.ps1),因为在此系统上禁用了运行脚本

在运行 npm 安装的命令(即 yarn、ng 等)时,我收到以下错误:

File C:\Users\<username>\AppData\Roaming\npm\<application> cannot be loaded because running scripts is disabled on this system.
Run Code Online (Sandbox Code Playgroud)

其中 <application> 是 npm 安装的命令之一(即 yarn、ng 等)

如何解决这个问题?

npm hadoop-yarn angular angular10

22
推荐指数
1
解决办法
2万
查看次数

在YARN上运行的Spark如何解释Python内存使用情况?

阅读完文档之后,我不明白在YARN上运行的Spark是如何考虑Python内存消耗的.

是否计入spark.executor.memory,spark.executor.memoryOverhead还是在哪里?

特别是我有一个PySpark应用程序spark.executor.memory=25G,spark.executor.cores=4我遇到YARN因超出内存限制而被杀死的频繁容器.map在RDD上运行时出错.它运行在相当大量的复杂Python对象上,因此预计会占用一些非常重要的内存但不会占用25GB.我应该如何配置不同的内存变量以用于繁重的Python代码?

python hadoop hadoop-yarn apache-spark pyspark

21
推荐指数
1
解决办法
2536
查看次数

Spark yarn cluster vs client - 如何选择使用哪一个?

spark 文档具有以下段落,它使纱线客户端和纱线簇之间的差异在下降:

有两种部署模式可用于在YARN上启动Spark应用程序.在集群模式下,Spark驱动程序在应用程序主进程内运行,该进程由群集上的YARN管理,客户端可以在启动应用程序后消失.在客户端模式下,驱动程序在客户端进程中运行,应用程序主服务器仅用于从YARN请求资源.

我假设有两个选择是有原因的.如果是这样,你如何选择使用哪一个?

请使用事实证明您的回答是正确的,以便此问题和答案符合stackoverflow的要求.

stackoverflow上有一些类似的问题,但是这些问题集中在两种方法之间的差异,但不关注何时一种方法比另一种方法更合适.

hadoop-yarn apache-spark

21
推荐指数
2
解决办法
2万
查看次数

退出代码和退出状态是否意味着什么火花?

在纱线上运行火花时,我一直看到退出代码和退出状态:

以下是一些:

  • CoarseGrainedExecutorBackend: RECEIVED SIGNAL 15: SIGTERM

  • ...failed 2 times due to AM Container for application_1431523563856_0001_000002 exited with exitCode: 10...

  • ...Exit status: 143. Diagnostics: Container killed on request

  • ...Container exited with a non-zero exit code 52:...

  • ...Container killed on request. Exit code is 137...

我从来没有发现任何这些消息是有用的......有没有机会解释这些消息究竟出了什么问题?我搜索了高低不一的表格来解释错误,但没有.

我能够从上面解释的唯一一个是退出代码52,但那是因为我在这里查看了源代码.这是说这是一个OOM.

我是否应该停止尝试解释其余的退出代码并退出状态?或者我错过了一些明显的方式,这些数字实际意味着什么?

即使有人能告诉我之间的差异exit code,exit status以及SIGNAL这将是有益的.但我现在只是随机猜测,而且我周围的其他所有人都使用了火花.

最后,为什么一些退出代码小于零以及如何解释这些?

例如 Exit status: -100. Diagnostics: Container released on a *lost* node

hadoop hadoop-yarn apache-spark pyspark spark-dataframe

21
推荐指数
1
解决办法
1万
查看次数