EC2 - 硬件故障

Question

EC2 - 硬件故障

Rod*_*Rod 5 amazon-ec2 amazon-web-services

我在 Debian 实例上使用 EBS 存储。我将实例设置为在关机时不终止。

我想知道在硬件故障（RAM、CPU、HD 等）的情况下会发生什么。

我应该配置哪种类型的警报才能收到通知？我可以依赖“StatusCheckFailed”吗？
我应该期待 AWS 团队自动在不同硬件上重新启动/重启吗？如果没有，我必须遵循哪些步骤才能在不同的硬件上重新启动我的实例？多久时间？
我可以安全地假设我不会丢失我的数据（/var/www 等）？目前，如果我停止并启动一切正常，但我不确定我是否可以依靠它
如果硬盘出现故障，是否透明是因为 AWS 使用 RAID 或其他什么？或者我是否也必须得到通知并且可能从以前的快照手动重新启动？

在“云”上，尤其是 AWS 上，我期望它包括故障转移管理，使用 VMware 之类的产品，只需自动在另一个硬件上重新启动 VM。所以我知道我必须期待故障转移，但我正在寻找解决方案，在检测到硬件故障时自动在另一个区域/区域运行实例，或者，如果不可能，至少手动通过几个脚步？

谢谢，罗德

Answer 1

Tim*_*Tim 2

AWS 不太可能重新启动您的实例。他们为您提供了监视和重新启动实例的所有工具，因此他们将其留给您。如果您需要做某事，他们可能会向您发送电子邮件。如果您停止然后启动实例，它将移动到新硬件，但重新启动不会将其移动到新硬件。我的 Amazon Linux 实例的重新启动通常需要一分钟左右的时间。

如果 EC2 硬件发生故障，您不应丢失 EBS 磁盘中的数据，因为 EBS 卷冗余存储在单个可用区内。EBS 快照存储在 S3 中，S3 存储单个区域内三个可用区的数据，因此它们更加稳健。可以使用各种工具自动每小时、每天、每周等拍摄快照。第一个快照很大，后续的差异据说使用相对较小的空间。根据我的经验，紧密相连的快照占用的空间很小，但随着时间的推移，它们确实会增加大小和成本，因此我会定期删除不需要的快照。

除了快照之外，您还应该使用Borg Backup、Restic等应用程序或商业工具进行应用程序级备份。

您可以在 CloudWatch 中创建一个警报，以便在引发 StatusCheckFailed 时重新启动您的实例。包含分步说明的文档位于此处。

归档时间：	9 年，12 月前
查看次数：	2085 次
最近记录：	6 年，9 月前