我正在尝试运行一个火花程序,其中我有多个jar文件,如果我只有一个jar我无法运行.我想添加位于相同位置的jar文件.我已尝试过以下但它显示了依赖性错误
spark-submit \
--class "max" maxjar.jar Book1.csv test \
--driver-class-path /usr/lib/spark/assembly/lib/hive-common-0.13.1-cdh?5.3.0.jar
Run Code Online (Sandbox Code Playgroud)
如何添加另一个位于同一目录下的jar文件?
我想加/usr/lib/spark/assembly/lib/hive-serde.jar.
我正在使用带有Pyspark的Jupyter笔记本以及以下码头图片:Jupyter all-spark-notebook
现在我想编写一个使用Kafka消息的pyspark流应用程序.在Spark-Kafka集成指南中,他们描述了如何使用spark-submit部署这样的应用程序(它需要链接外部jar - 解释在3.部署中).但是因为我正在使用Jupyter笔记本,所以我从未真正运行过spark-submit命令,我认为如果按下执行,它会在后面运行.
在spark-submit命令中你可以指定一些参数,其中一个是-jars,但我不清楚如何从笔记本中设置这个参数(或通过环境变量外部?).我假设我可以通过SparkConf或SparkContext对象动态链接这个外部jar .有没有人体验如何从笔记本电脑正确执行链接?
python-3.x apache-kafka spark-streaming pyspark jupyter-notebook