小编use*_*819的帖子

如何通过python软件包来触发作业并使用参数从软件包中调用主文件

我的python代码结构如下:

Project1
--src
----util.py
----job1.py
----job2.py
--config
----config1.json
----config2.json
Run Code Online (Sandbox Code Playgroud)

我想在spark中运行此job1,但这些我无法调用job1.py,因为它依赖于util.py和job2.py等其他文件和配置文件,因此我需要传递完整的程序包作为spark的输入。

我尝试运行,spark-submit job1.py但是由于诸如job2.py和util.py之类的依赖项对执行者不可用而失败。

根据spark文档,我看到--files是执行此操作的一个选项,但是它可以通过将所有文件名传递给spark-submit来工作,如果将来代码库中的文件数量很多,这看起来很困难。

我看到的另一个选项是使用--archive选项传递代码zip文件,但仍然失败,因为无法引用zip文件。

那么,有人可以建议其他方法在Spark中运行此类代码库吗?

python apache-spark pyspark

6
推荐指数
3
解决办法
4848
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1