小编Cla*_*dio的帖子

GCP Dataproc 自定义图像 Python 环境

创建 DataProc 自定义图像和 Pyspark 时遇到问题。我的自定义映像基于 DataProc 1.4.1-debian9,并使用我的初始化脚本从 requirements.txt 文件安装 python3 和一些包,然后设置 python3 env 变量以强制 pyspark 使用 python3。但是,当我在使用此映像创建的集群上提交作业(为简单起见使用单节点标志)时,该作业找不到安装的软件包。如果我登录集群机器并运行 pyspark 命令,则启动 Anaconda PySpark,但如果我使用 root 用户登录并运行 pyspark,我将使用 python 3.5.3 的 pyspark。这是一个很奇怪的现象。我不明白的是哪个用户用于创建图像?为什么我的用户和 root 用户的环境不同?我希望该映像是由 root 用户提供的,所以我希望可以从 root 用户找到我安装的所有软件包。提前致谢

python google-cloud-platform pyspark google-cloud-dataproc

7
推荐指数
1
解决办法
722
查看次数