Windows：Apache Spark 历史服务器配置

Question

Windows：Apache Spark 历史服务器配置

tur*_*424 1 windows git bash apache-spark apache-spark-sql

我想使用 Spark 的 History Server 来利用 Web UI 的日志记录机制，但我发现在 Windows 计算机上运行此代码有些困难。

我做了以下事情：

设置我的 Spark-defaults.conf 文件以反映

spark.eventLog.enabled=true
spark.eventLog.dir=file://C:/spark-1.6.2-bin-hadoop2.6/logs
spark.history.fs.logDirectory=file://C:/spark-1.6.2-bin-hadoop2.6/logs

Run Code Online (Sandbox Code Playgroud)

我的spark-env.sh反映：

SPARK_LOG_DIR    "file://C:/spark-1.6.2-bin-hadoop2.6/logs"
SPARK_HISTORY_OPTS   "-Dspark.history.fs.logDirectory=file://C:/spark-1.6.2-bin-hadoop2.6/logs"

Run Code Online (Sandbox Code Playgroud)

我正在使用 Git-BASH 运行 start-history-server.sh 文件，如下所示：

USERA@SYUHUH MINGW64 /c/spark-1.6.2-bin-hadoop2.6/sbin
$ sh start-history-server.sh

Run Code Online (Sandbox Code Playgroud)

而且，我收到此错误：

USERA@SYUHUH MINGW64 /c/spark-1.6.2-bin-hadoop2.6/sbin
$ sh start-history-server.sh
C:\spark-1.6.2-bin-hadoop2.6/conf/spark-env.sh: line 69: SPARK_LOG_DIR: command not found
C:\spark-1.6.2-bin-hadoop2.6/conf/spark-env.sh: line 70: SPARK_HISTORY_OPTS: command not found
ps: unknown option -- o
Try `ps --help' for more information.
starting org.apache.spark.deploy.history.HistoryServer, logging to C:\spark-1.6.2-bin-hadoop2.6/logs/spark--org.apache.spark.deploy.history.HistoryServer-1-SGPF02M9ZB.out
ps: unknown option -- o
Try `ps --help' for more information.
failed to launch org.apache.spark.deploy.history.HistoryServer:
  Spark Command: C:\Program Files (x86)\Java\jdk1.8.0_91\bin\java -cp C:\spark-1.6.2-bin-hadoop2.6/conf\;C:\spark-1.6.2-bin-hadoop2.6/lib/spark-assembly-1.6.2-hadoop2.6.0.jar;C:\spark-1.6.2-bin-hadoop2.6\lib\datanucleus-api-jdo-3.2.6.jar;C:\spark-1.6.2-bin-hadoop2.6\lib\datanucleus-core-3.2.10.jar;C:\spark-1.6.2-bin-hadoop2.6\lib\datanucleus-rdbms-3.2.9.jar -Xms1g -Xmx1g org.apache.spark.deploy.history.HistoryServer
  ========================================
full log in C:\spark-1.6.2-bin-hadoop2.6/logs/spark--org.apache.spark.deploy.history.HistoryServer-1-SGPF02M9ZB.out

Run Code Online (Sandbox Code Playgroud)

输出的完整日志如下所示：

Spark Command: C:\Program Files (x86)\Java\jdk1.8.0_91\bin\java -cp C:\spark-1.6.2-bin-hadoop2.6/conf\;C:\spark-1.6.2-bin-hadoop2.6/lib/spark-assembly-1.6.2-hadoop2.6.0.jar;C:\spark-1.6.2-bin-hadoop2.6\lib\datanucleus-api-jdo-3.2.6.jar;C:\spark-1.6.2-bin-hadoop2.6\lib\datanucleus-core-3.2.10.jar;C:\spark-1.6.2-bin-hadoop2.6\lib\datanucleus-rdbms-3.2.9.jar -Xms1g -Xmx1g org.apache.spark.deploy.history.HistoryServer
========================================

Run Code Online (Sandbox Code Playgroud)

我正在运行一个 SparkR 脚本，在其中初始化 Spark 上下文，然后调用 init()。

请告知我是否应该在运行 Spark 脚本之前运行历史服务器？

继续进行的指针和提示（关于日志记录）将不胜感激。

Answer 1

Eya*_*ari 5

在 Windows 上，您需要运行Spark 的.cmd文件而不是.sh。据我所见， Spark历史服务器没有.cmd脚本。所以基本上需要手动运行。

我遵循了历史服务器 Linux 脚本，为了在 Windows 上手动运行它，您需要执行以下步骤：

所有历史服务器配置应在spark-defaults.conf文件中设置（删除.template后缀），如下所述
您应该转到 Spark config 目录并将spark.history.*配置添加到%SPARK_HOME%/conf/spark-defaults.conf. 如下：

spark.eventLog.enabled true spark.history.fs.logDirectory file:///c:/logs/dir/path
配置完成后，从%SPARK_HOME%运行以下命令

bin\spark-class.cmd org.apache.spark.deploy.history.HistoryServer
输出应该是这样的：

16/07/22 18:51:23 INFO Utils: Successfully started service on port 18080. 16/07/22 18:51:23 INFO HistoryServer: Started HistoryServer at http://10.0.240.108:18080 16/07/22 18:52:09 INFO ShutdownHookManager: Shutdown hook called

希望有帮助！:-)

归档时间：	9 年，7 月前
查看次数：	3249 次
最近记录：	5 年，6 月前