为什么我的 AWS 实例突然变得无响应,报告高“被盗”CPU

Nie*_*ian 2 scaling amazon-ec2 cpu-usage amazon-web-services

设置 我有一堆 t2.small EC2 实例运行托管称为thumbor的图像处理库,用于简单的动态图像大小调整。原件从 S3 加载。在实例前面我有一个 EC 负载均衡器。我在服务器中安装了 New Relic 服务器监控。

问题 在随机时间,我的服务器突然开始体验极高的平均。响应时间。如果我查看 New Relic 中的统计数据,我唯一看到的是服务器 CPU 持续飙升,报告“被盗”的 CPU。

我的服务器似乎有足够高的容量,同时吞吐量并没有出现任何极端峰值。

我注意到,如果我再次停止/启动服务器。然后被盗的 CPU 消失了,它们再次运行良好 - 直到下一次 - 可能需要数小时或数天。

为什么会发生这种情况,我该怎么办?

新的遗物服务器监控报告突然高 被盗CPU

EC 负载均衡器报告响应时间较长但吞吐量没有显着增加

sys*_*138 11

Amazon 的 t 系列实例对 CPU 使用率使用配额系统。当您达到配额时,您开始看到被盗百分比上升。您对此无能为力,这是产品的结构性问题。

  • 总体使用较少的 CPU。
  • 使用更大的 t 系列实例。
  • 使用没有配额的 m 系列或 c 系列之一。