如何加速亚马逊EMR bootstrap?

nra*_*aud 7 amazon-emr

我正在使用亚马逊EMR进行一些密集计算,但是,开始计算需要大约7分钟,是否有一些聪明的方法让我的计算立即开始?计算是一个从面向用户的网站开始的python流,所以我真的不能负担很长的启动.

我可能只是错过了亚马逊AWS的海洋选项.我只是想简单地启动工作(这就是我使用的EMR),可扩展性,并且只为我使用的东西付费(并且启动时间没用).

Aar*_*onM 6

我知道这是一个古老的问题但我有一些见解,我会添加到下一个搜索者,找到这个线程,希望加快Amazon EMR上的自举时间.

有一段时间我想知道为什么我的集群花了这么长时间才开始,通常大约15分钟.对于通常在1小时内完成的工作,这需要相当大的时间.有时它推动工作超过1小时,但我认为AWS不会为完整的启动时间充电.

过去几天我注意到我的启动时间得到了改善.您可以看到现货市场在4月和5月的第一周变得非常不稳定.通常情况下,我完全使用spot实例启动我的集群,因为失败是一种选择,并且在我的情况下节省成本是合理的.然而,在等待14个小时开始集群之后,我不得不切换到OnDemand,我只有这么大的耐心,过夜通常会超过它.OnDemand集群在大约5分钟后开始.由于疯狂似乎已经减弱,现在已经转回现场,我回到了15分钟的集群.

因此,如果您在Core或Master节点上使用Spot实例,则需要更长的启动时间.我将尝试在核心中使用一小组OnDemand,并使用大量现场实例进行扩充,以查看它是否有助于启动并更好地处理现货市场波动.


小智 0

您的数据源托管在哪里?

如果在 S3 上(可能),如果您有许多小文件,那么花费时间的是每个连接(每个文件)的延迟。

如果这是唯一的原因,那么您的 7 分钟启动时间将转化为约 5 分钟的 S3 读取时间 => S3 上的约 1GB 输入文件

  • S3 上的数据对于引导时间来说并不重要。 (2认同)