我正在 Windows 10 机器上的 pycharm local 中运行 pyspark 程序。我想打开 Spark Web ui 来监控作业并了解 Spark Web ui 显示的指标。在 jupyter 上运行相同的代码时,我可以访问 Web ui,但是当我使用 pycharm 运行程序时,我没有看到访问 Spark Web ui 的选项,即使我尝试了 url local:4040 或 localhost:4041 但是,这不起作用。
我有 4 个 python 脚本和 1 个 .txt 配置文件。在 4 个 Python 文件中,其中一个文件具有 Spark 应用程序的入口点,并且还从其他 Python 文件导入函数。但配置文件是在其他一些 python 文件中导入的,该文件不是 Spark 应用程序的入口点。我想在 pyspark 中编写 Spark Submit 命令,但是当配置文件不是 python 文件而是文本文件或 ini 文件时,我不确定如何使用 Spark Submit 命令沿配置文件提供多个文件。
用于演示:4 个 python 文件: file1.py 、 file2.py 、 file3.py 。文件4.py
1个配置文件:conf.txt
file1.py:这个文件有spark会话并调用所有其他python文件。file3.py:这个python文件正在读取conf.txt。
我想通过 Spark Submit 提供所有这些文件,但不确定 command 。我确定的一种解决方案是:
spark-submit --master local --driver-memory 2g --executor-memory 2g --py-files s3_path\file2.py,s3_path\file3.py,s3_path\file4.py s3_path\file1.py
Run Code Online (Sandbox Code Playgroud)
但对于上面的 Spark Submit 我不知道如何传递 conf.txt 。
我已经使用 pip install pandoc 在 anaconda 中安装了 pandoc 包,但我抛出以下错误。FileNotFoundError: [Errno 2] 没有这样的文件或目录:'/root/anaconda3/envs/test/lib/python3.5/site-packages/pandoc/definitions/1.16.hs'
我遵循了以下链接:https : //pypi.org/project/pandoc/