小编Min*_*int的帖子

运行 Spark 作业的常见方法似乎是使用 Spark-submit，如下所示（来源）：

spark-submit --py-files pyfile.py,zipfile.zip main.py --arg1 val1

作为 Spark 的新手，我想知道为什么第一种方法比从 python 运行它更受欢迎（示例）：

python pyfile-that-uses-pyspark.py

前一种方法在谷歌搜索该主题时会产生更多示例，但没有明确说明其原因。事实上，这是另一个堆栈溢出问题，其中一个答案（在下面重复）明确告诉OP不要使用python方法，但没有给出原因。

不要将 py 文件运行为： python filename.py 而是使用：spark-submit filename.py

有人可以提供见解吗？

5
推荐指数

1
解决办法

3354
查看次数

小编Min_int的帖子