Jos*_*Fox 5 python pip amazon-ec2 amazon-web-services apache-spark
我可以在AWS上产生火花簇所描述这里.
但是,我自己的Python代码和pip库需要在master和worker上运行.这是很多代码,pip安装过程也会编译一些本机库,因此我不能简单地让Spark在运行时使用诸如使用spark_context或--py-files 注册pip需求文件等技术来分发此代码spark-submit的论点.
当然我可以在运行后立即运行一个bash脚本aws emr create-cluster,但我想知道是否有更自动的方式,以便我可以避免维护一个大的bash脚本进行安装.
那么,设置集群以包含我的代码和依赖项的最佳方法是什么?
| 归档时间: |
|
| 查看次数: |
1016 次 |
| 最近记录: |