java.lang.NoClassDefFoundError:org/apache/spark/sql/SparkSession

Question

java.lang.NoClassDefFoundError:org/apache/spark/sql/SparkSession

我用Java编写了一个Spark Job.当我提交作业时,它会给出以下错误:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession
        at com.thinkbiganalytics.veon.util.SparkSessionBuilder.getOrCreateSparkSession(SparkSessionBuilder.java:12)
        at com.thinkbiganalytics.veon.AbstractSparkTransformation.initSparkSession(AbstractSparkTransformation.java:92)
        at com.thinkbiganalytics.veon.transformations.SDPServiceFeeDeductionSourceToEventStore.init(SDPServiceFeeDeductionSourceToEventStore.java:57)
        at com.thinkbiganalytics.veon.AbstractSparkTransformation.doTransform(AbstractSparkTransformation.java:51)
        at com.thinkbiganalytics.veon.transformations.SDPServiceFeeDeductionSourceToEventStore.main(SDPServiceFeeDeductionSourceToEventStore.java:51)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:745)
        at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:181)
        at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:206)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:121)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.SparkSession
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)

Run Code Online (Sandbox Code Playgroud)

Answer 1

use*_*rab 21

我在从 Intellij 编辑器运行时遇到了这个问题。我已按照中提供的方式标记了火花罐pom.xml，请参见下文：

<dependency>
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-sql_2.11</artifactId>
     <version>2.4.0</version>
     <scope>provided</scope>
 </dependency>

Run Code Online (Sandbox Code Playgroud)

删除提供的范围后，错误消失了。

spark-submit在制作提供的 Spark jar 时，仅在使用 Spark jar 运行应用程序或在类路径上包含 Spark jar时才提供它们

不要删除它。你应该遵循这个答案 - /sf/answers/4655724041/ (2认同)

Answer 2

Cha*_*wri 11

如果您从 IntelliJ 运行，请检查“包含提供范围的依赖项”，如下所示

在运行/调试配置内，请选择“修改选项”，然后标记选中“包含具有提供范围的依赖项”

Answer 3

Jer*_*emy 6

如果您从 Intellij IDEA 内部运行，并且您已将 Spark 库标记为“提供”，如下所示："org.apache.spark" %% "spark-sql" % "3.0.1" % "provided"，那么您需要编辑您的运行/调试配置并选中“包含具有提供范围的依赖项”框。

Answer 4

T. *_*ęda 5

您可能正在使用较低Spark版本在集群上部署应用程序.

请检查群集上的Spark版本 - 它应该与pom.xml中的版本相同.还请注意,所有Spark依赖项都应标记为provided使用spark-submit来部署应用程序时

Answer 5

ank*_*000 5

提交时

火花提交

检查您的项目应该与pom.xml中的spark版本具有相同的依赖关系，

这可能是因为您在同一台机器上有两个Spark版本

为此，您可以创建两个各种软链接，并可以使用在其上构建项目的确切Spark版本

spark1-submit -> /Users/test/sparks/spark-1.6.2-bin-hadoop2.6/bin/spark-submit

spark2–submit -> /Users/test/sparks/spark-2.1.1-bin-hadoop2.7/bin/spark-submit

Run Code Online (Sandbox Code Playgroud)

或可能是因为您以较高的Spark版本构建项目并以较低的Spark版本部署在集群上

为此，您必须在集群中升级您的Spark版本。cloudera为此提供了支持 https://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/Multiple-Spark-version-on-the-same-cluster/td-p/39880

归档时间：	8 年，3 月前
查看次数：	11823 次
最近记录：	6 年，11 月前