如何在Dataproc集群启动时自动安装Python库?

Jam*_*mes 6 hadoop apache-spark google-cloud-platform google-cloud-dataproc

群集启动时如何在我的Dataproc群集上自动安装Python库?这样可以省去手动登录主节点和/或工作节点以手动安装我需要的库的麻烦.

如果这个自动化安装只能在主服务器而不是工作服务器上安装,那将是很好的.

Jam*_*mes 6

初始化操作是执行此操作的最佳方法.初始化操作是在创建集群时运行的shell脚本.这将允许您自定义集群,例如安装Python库.这些脚本必须存储在Google云端存储中,并可在通过Google Cloud SDK或Google Developers Console创建群集时使用.

下面是一个示例初始化操作,用于在主节点上的集群创建上安装Python pandas.

#!/bin/sh
ROLE=$(/usr/share/google/get_metadata_value attributes/role)
if [[ "${ROLE}" == 'Master' ]]; then 
  apt-get install python-pandas -y
fi
Run Code Online (Sandbox Code Playgroud)

从此脚本中可以看出,可以识别节点的角色,/usr/share/google/get_metadata_value attributes/role然后专门在主(或工作线程)节点上执行操作.

您可以查看Google Cloud Dataproc文档以获取更多详细信息