如何在AWS Spark集群中安装我的代码和依赖项?

Jos*_*Fox 5 python pip amazon-ec2 amazon-web-services apache-spark

我可以在AWS上产生火花簇所描述这里.

但是,我自己的Python代码和pip库需要在master和worker上运行.这是很多代码,pip安装过程也会编译一些本机库,因此我不能简单地让Spark在运行时使用诸如使用spark_context--py-files 注册pip需求文件等技术来分发此代码spark-submit的论点.

当然我可以在运行后立即运行一个bash脚本aws emr create-cluster,但我想知道是否有更自动的方式,以便我可以避免维护一个大的bash脚本进行安装.

那么,设置集群以包含我的代码和依赖项的最佳方法是什么?