小编Jay*_*Jay的帖子

如何在 pycharm 中运行 pyspark 代码时打开 Spark Web ui?

我正在 Windows 10 机器上的 pycharm local 中运行 pyspark 程序。我想打开 Spark Web ui 来监控作业并了解 Spark Web ui 显示的指标。在 jupyter 上运行相同的代码时,我可以访问 Web ui,但是当我使用 pycharm 运行程序时,我没有看到访问 Spark Web ui 的选项,即使我尝试了 url local:4040 或 localhost:4041 但是,这不起作用。

pycharm apache-spark pyspark

6
推荐指数
1
解决办法
6592
查看次数

使用多个python文件和一个配置文件提交pyspark作业

我有 4 个 python 脚本和 1 个 .txt 配置文件。在 4 个 Python 文件中,其中一个文件具有 Spark 应用程序的入口点,并且还从其他 Python 文件导入函数。但配置文件是在其他一些 python 文件中导入的,该文件不是 Spark 应用程序的入口点。我想在 pyspark 中编写 Spark Submit 命令,但是当配置文件不是 python 文件而是文本文件或 ini 文件时,我不确定如何使用 Spark Submit 命令沿配置文件提供多个文件。

用于演示:4 个 python 文件: file1.py 、 file2.py 、 file3.py 。文件4.py

1个配置文件:conf.txt

file1.py:这个文件有spark会话并调用所有其他python文件。file3.py:这个python文件正在读取conf.txt。

我想通过 Spark Submit 提供所有这些文件,但不确定 command 。我确定的一种解决方案是:

spark-submit --master local  --driver-memory 2g --executor-memory  2g --py-files s3_path\file2.py,s3_path\file3.py,s3_path\file4.py  s3_path\file1.py
Run Code Online (Sandbox Code Playgroud)

但对于上面的 Spark Submit 我不知道如何传递 conf.txt 。

python apache-spark pyspark spark-submit

6
推荐指数
1
解决办法
9735
查看次数

无法导入 pandoc,出现 FileNotFoundError

我已经使用 pip install pandoc 在 anaconda 中安装了 pandoc 包,但我抛出以下错误。FileNotFoundError: [Errno 2] 没有这样的文件或目录:'/root/anaconda3/envs/test/lib/python3.5/site-packages/pandoc/definitions/1.16.hs'

我遵循了以下链接:https : //pypi.org/project/pandoc/

python package anaconda

3
推荐指数
1
解决办法
1339
查看次数