Amazon EC2 EBS 存储可靠性

Era*_*iel 0 amazon-ec2 amazon-ebs amazon-web-services

我们在 Amazon EC2 上运行了大量 Ubuntu 实例,在过去两个月中,我们观察到其中一些实例变得无响应且无法访问。没有 SSH,没有 ping 响应等。最终重新启动这些实例有助于作为最后的手段。

所有受影响的实例都基于 EBS。日志中没有关于失败原因的指示。我们一直怀疑这些实例可能会以某种方式断开与其 EBS 卷的连接。

我的问题是:

  1. 这甚至可能吗(我的意思是:一个实例失去了与其 EBS 卷的连接)?
  2. 我该如何调试并确保是这种情况?
  3. 最重要的是:我如何防止这种情况发生?

Saf*_*oth 5

到目前为止,EBS 是您在 AWS 上拥有的最可靠的选择。它不仅更好,而且还可以轻松拍摄快照并重新附加到另一个实例。我们有非常大的 Ec2 实例,它们是基于 EBS 的,供媒体网站使用,并且没有出现任何此类问题。除此之外,亚马逊保证这项服务的正常运行时间为 99.95%,并且会在出现故障时退款。

回答你的问题。

  1. 它不太可能,除非您的实例健康状况由于某种原因而变差。但过去曾报告过类似的问题,IOPS 很差。
  2. 检查“读写 IO”与“队列中的待处理 IO”。因此,如果队列中有待处理的 IO 时您有 0 IO,那么您就有问题了。请参阅 SLA。
  3. 检查实例的健康状况 + EBS IOP 的健康状况。您可以在某种程度上使用 cloudwatch。检查此链接。