使用mrjob在Amazon的Elastic MapReduce上运行python代码我已成功找到一种方法来升级EMR图像的numpy和scipy.
从控制台运行以下命令有效:
tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz
gzip py_bundle.tar
python my_mapper.py -r emr --python-archive py_bundle.tar.gz --bootstrap-python-package numpy-1.6.1.tar.gz --bootstrap-python-package scipy-0.9.0.tar.gz > output.txt
Run Code Online (Sandbox Code Playgroud)
这成功地将最新的numpy和scipy引导到图像中并且完美地工作.我的问题是速度问题.这需要21分钟才能在一个小实例上安装.
有谁知道如何加快升级numpy和scipy的过程?