Spark 安装 - 错误:无法找到或加载主类 org.apache.spark.launcher.Main

mad*_*rix 4 python apache-spark windows-10

Spark 安装 2.3 并在 .bashrc 中设置以下环境变量后(使用 gitbash)

  1. HADOOP_HOME

  2. SPARK_HOME

  3. PYSPARK_PYTHON

  4. JDK_HOME

执行$SPARK_HOME/bin/spark-submit显示以下错误。

错误:无法找到或加载主类 org.apache.spark.launcher.Main

我在 stackoverflow 和其他网站上做了一些研究检查,但无法找出问题所在。

执行环境

  1. Windows 10 企业版
  2. 火花版本 - 2.3
  3. Python 版本 - 3.6.4

您能提供一些指示吗?

pol*_*loC 5

我有那个错误消息。它可能有几个根本原因,但这是我调查和解决问题的方式(在 Linux 上):

  • spark-submit尝试使用bash -x spark-submit来查看哪一行失败,而不是启动。
  • 多次执行该过程(因为spark-submit调用嵌套脚本),直到找到名为:在我的情况下类似的底层过程:

/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java -cp '/opt/spark-2.2.0-bin-hadoop2.7/conf/:/opt/spark-2.2.0-bin-hadoop2.7/jars/*' -Xmx1g org.apache.spark.deploy.SparkSubmit --class org.apache.spark.repl.Main --name 'Spark shell' spark-shell

因此,spark-submit 启动了一个 java 进程,并且无法使用中的文件找到 org.apache.spark.launcher.Main 类/opt/spark-2.2.0-bin-hadoop2.7/jars/*(请参阅上面的 -cp 选项)。我在这个 jars 文件夹中执行了 ls 操作,计算出 4 个文件,而不是整个 Spark 发行版(约 200 个文件)。应该是安装过程中出现的问题。所以我重新安装了 Spark,检查了 jar 文件夹,它就像一个魅力。

所以,你应该:

  • 检查java命令(cp选项)
  • 检查你的 jars 文件夹(它是否至少包含所有的 Spark-*.jar ?)

希望能帮助到你。