Jam*_*mes 6 hadoop apache-spark google-cloud-platform google-cloud-dataproc
群集启动时如何在我的Dataproc群集上自动安装Python库?这样可以省去手动登录主节点和/或工作节点以手动安装我需要的库的麻烦.
如果这个自动化安装只能在主服务器而不是工作服务器上安装,那将是很好的.
初始化操作是执行此操作的最佳方法.初始化操作是在创建集群时运行的shell脚本.这将允许您自定义集群,例如安装Python库.这些脚本必须存储在Google云端存储中,并可在通过Google Cloud SDK或Google Developers Console创建群集时使用.
下面是一个示例初始化操作,用于仅在主节点上的集群创建上安装Python pandas.
#!/bin/sh
ROLE=$(/usr/share/google/get_metadata_value attributes/role)
if [[ "${ROLE}" == 'Master' ]]; then
apt-get install python-pandas -y
fi
Run Code Online (Sandbox Code Playgroud)
从此脚本中可以看出,可以识别节点的角色,/usr/share/google/get_metadata_value attributes/role然后专门在主(或工作线程)节点上执行操作.
您可以查看Google Cloud Dataproc文档以获取更多详细信息
| 归档时间: |
|
| 查看次数: |
2444 次 |
| 最近记录: |