无法加载数据源类:com.databricks.spark.csv

kam*_*nga 6 apache-spark

我的build.sbt文件有这个:

scalaVersion := "2.10.3"
libraryDependencies += "com.databricks" % "spark-csv_2.10" % "1.1.0"
Run Code Online (Sandbox Code Playgroud)

我在独立集群模式下运行Spark,我的SparkConf是SparkConf().setMaster("spark://ec2-[ip].compute-1.amazonaws.com:7077").setAppName("Simple Application")(我没有使用该方法setJars,不确定我是否需要它).

我使用命令打包jar sbt package.我用来运行应用程序的命令是./bin/spark-submit --master spark://ec2-[ip].compute-1.amazonaws.com:7077 --class "[classname]" target/scala-2.10/[jarname]_2.10-1.0.jar.

运行此时,我收到此错误:

java.lang.RuntimeException:无法加载数据源的类:com.databricks.spark.csv

有什么问题?

day*_*man -2

您是否尝试过将 --packages 参数与 Spark-submit 一起使用?我遇到了这个问题,火花不尊重列为库依赖项的依赖项。

尝试这个:

./bin/spark-submit --master spark://ec2-[ip].compute-1.amazonaws.com:7077 
                   --class "[classname]" target/scala-2.10/[jarname]_2.10-1.0.jar
                   --packages com.databricks:spark-csv_2.10:1.1.0
Run Code Online (Sandbox Code Playgroud)

_

来自 Spark 文档:

用户还可以通过使用 --packages 提供以逗号分隔的 Maven 坐标列表来包含任何其他依赖项。使用此命令时将处理所有传递依赖项。

https://spark.apache.org/docs/latest/submitting-applications.html#advanced-dependency-management