我的build.sbt文件有这个:
scalaVersion := "2.10.3"
libraryDependencies += "com.databricks" % "spark-csv_2.10" % "1.1.0"
Run Code Online (Sandbox Code Playgroud)
我在独立集群模式下运行Spark,我的SparkConf是SparkConf().setMaster("spark://ec2-[ip].compute-1.amazonaws.com:7077").setAppName("Simple Application")(我没有使用该方法setJars,不确定我是否需要它).
我使用命令打包jar sbt package.我用来运行应用程序的命令是./bin/spark-submit --master spark://ec2-[ip].compute-1.amazonaws.com:7077 --class "[classname]" target/scala-2.10/[jarname]_2.10-1.0.jar.
运行此时,我收到此错误:
java.lang.RuntimeException:无法加载数据源的类:com.databricks.spark.csv
有什么问题?
day*_*man -2
您是否尝试过将 --packages 参数与 Spark-submit 一起使用?我遇到了这个问题,火花不尊重列为库依赖项的依赖项。
尝试这个:
./bin/spark-submit --master spark://ec2-[ip].compute-1.amazonaws.com:7077
--class "[classname]" target/scala-2.10/[jarname]_2.10-1.0.jar
--packages com.databricks:spark-csv_2.10:1.1.0
Run Code Online (Sandbox Code Playgroud)
_
来自 Spark 文档:
用户还可以通过使用 --packages 提供以逗号分隔的 Maven 坐标列表来包含任何其他依赖项。使用此命令时将处理所有传递依赖项。
https://spark.apache.org/docs/latest/submitting-applications.html#advanced-dependency-management
| 归档时间: |
|
| 查看次数: |
12155 次 |
| 最近记录: |