标签: amazon-cloudwatch

我想为我的网站安装一个负载均衡器并使网站保持最新。当处理能力达到一定水平时，负载均衡器将采用我选择的 AMI 并启动更多这些实例。问题是 AMI 可能不是最新的，所以我会有一些实例是最新的，而另一些则不是。当我部署时，我可以毫无问题地部署到负载均衡器下的所有实例，但我需要知道负载均衡器何时启动新实例以触发此部署。当更新发生时，也会有一段时间大大降低其响应能力。所以我想出了一个计划。

我的计划：

部署后：

    identify one of the instances and
        get instance id
    identify volume of instance id
    ec2-create-snapshot vol-yyyyyyyy
        get snapshot volume id
    ec2reg -s snap-zzzzzzzz -a x86 -d Description -n imagename
        get image id
    as-delete-launch-config existinglaunchconfig
    as-create-launch-config mylaunchconfig --image-id IMAGEID --instance-type m1.small --key mykey --group mysecuritygroup
    as-update-auto-scaling-group --launch-configuration mylaunchconfig

Run Code Online (Sandbox Code Playgroud)

在我花很多时间试图弄清楚这一点并编写所有脚本、测试和其他所有内容之前，我的问题是：这行得通吗？有没有更好的办法？是否有任何人都知道的教程或帖子可以加快我在这个问题上的努力？谢谢。

load-balancing amazon-web-services amazon-elb amazon-cloudwatch

jch*_*ysk

2012 03-03

6
推荐指数

1
解决办法

1340
查看次数

AWS S3 存储桶大小爆炸式增长，但我不知道如何

我们的一个 S3 存储桶最近发生了一些事情：

我开始寻找所有这些额外内容的来源，但我收集的指标似乎与 CloudWatch（或我们的账单）中发生的情况不符。

存储桶有一些不同的键前缀（“文件夹”），所以我做的第一件事就是尝试确定它们中是否有任何一个对这个数字有显着贡献，如下所示：

aws s3 ls --summarize --human-readable --recursive s3://my-bucket/prefix

Run Code Online (Sandbox Code Playgroud)

然而，似乎没有一个前缀包含大量数据，只不过是几 GB。

我终于尝试跑步

aws s3 ls --summarize --human-readable --recursive s3://my-bucket

Run Code Online (Sandbox Code Playgroud)

...我的总大小约为 25GB。我是否在尝试查找“文件夹大小”时做错了事，或者误解了什么？我如何才能找到所有这些额外存储的使用位置（并找出正在运行的进程）？

amazon-s3 amazon-cloudwatch

use*_*629

lucky-day

6
推荐指数

1
解决办法

2530
查看次数

如何阻止 Lambda 产生与 CreateLogStream 相关的 CloudTrail 费用？

我管理的网站实际上不是很大，但 Lambda 被广泛使用，每次网站访问都会调用多次，导致每月有数十万次调用。

我注意到 CloudTrail 成本激增。进一步挖掘，我发现最大的问题是CreateLogStreamLambda 基础设施进行的调用，即是 AWS 的代码执行此操作，而不是我的代码。由于 CreateLogStream，我的 CloudTrail 成本是 Lambda 成本的 100 倍（Lambda 的免费套餐在某种程度上扭曲了这个比率）。

除了完全停用之外CloudTrail，有什么方法可以停止产生这些费用吗？

amazon-web-services amazon-cloudwatch amazon-lambda

Ale*_*x R

lucky-day

6
推荐指数

1
解决办法

414
查看次数

AWS ECS Container Insights 中存储读/写图表的单位是否不正确？

在 AWS 控制台 > CloudWatch > Container Insights > 性能监控 > ECS 任务中，Storage Read和的图表单位如下Storage Write所示：Bytes/Second

存储读取

字节/秒

然而，在这两种情况下，除了容器重新启动时的垂直下降之外，图表似乎总是单调增加，并且当我不希望看到持续恒定的 IO 时，它们具有很长的水平部分。

这些图表实际上显示的是累积值Bytes而不是所述值吗Bytes/Second？

在 AWS 文档的表格中查找ECS Container Insights 指标，我看到StorageReadBytes两者都这么StorageWriteBytes说Unit: Bytes，假设这指的是控制台 UI 图表中显示的相同指标，也许这证实了我的怀疑，即这是 AWS 控制台 UI 中的错误？

我尝试使用 AWS 中的“反馈”按钮来报告此问题，但在此发布，以防任何人都可以确认，或者它是否可以帮助其他可能因看似高的持续 I/O 率而担心的人。

amazon-web-services amazon-cloudwatch amazon-ecs

spa*_*owt

lucky-day

6
推荐指数

1
解决办法

1080
查看次数

为什么 Amazon EC2 状态检查对无响应的实例会成功？

危险！

除非您准备好崩溃和/或强制重启系统，否则不要运行此命令来“测试”它。

我采取的步骤：

我在运行 Ubuntu 14.01 LTS 的 EC2 上创建了一个 t1.micro 实例。
我确认两个状态检查都通过了。
我通过 SSH 进入了实例。
我运行了为什么这个命令使我的系统滞后如此严重以至于我不得不重新启动？.
- 我的 SSH 会话如下所示。
如您所见，实例（很快）耗尽了内存，并且我的会话在超时后终止。

我预计实例状态检查会失败。但是，两个状态检查在 20 多分钟后继续通过。该实例对 SSH 和 ping 没有响应，尽管 nmap 报告端口 22 已打开。

我希望使用状态检查来确定实例是否有响应，并使其自动缩放组终止并替换它，但看起来我无法做到这一点。

我有两个问题：

为什么实例通过两个状态检查？
是否有另一种解决方案（除了为未用于平衡负载的负载平衡器支付 18 美元/月）来终止无响应的实例？我可以用 Cloudwatch 警报做些什么吗？
- 理想情况下，我希望能够让实例定期报告其运行状况，如果它在一段时间内未能这样做，请将其终止（并让我的自动缩放组处理其余部分）。

我的 SSH 会话：

Welcome to Ubuntu 14.04.2 LTS (GNU/Linux 3.13.0-57-generic x86_64)

 * Documentation:  https://help.ubuntu.com/

  System information as of Thu Jul  9 18:50:39 UTC 2015

  System load: 0.0               Memory usage: 7%   Processes:       47
  Usage of /: …

Run Code Online (Sandbox Code Playgroud)

amazon-ec2 amazon-web-services amazon-cloudwatch

Tal*_*lia

2017 04-13

5
推荐指数

1
解决办法

1805
查看次数

从 ECS 容器记录到两个不同的 CloudWatch 日志流的最佳方式？

我们在AWS的ECS平台上运行我们的服务，并将日志发送到AWS CloudWatch。

我们有两种类型的日志，任何容器都可以生成其中一种类型：

常见的应用程序日志（访问、错误等）；这些必须易于开发人员和管理员查看
审计日志（人类可读的“谁在何时做了什么”日志）；必须限制对这些内容的访问

审核日志是法规强制要求的，除了更严格的访问控制要求外，它们的保留时间比应用程序日志更长，因此将两者放在同一个日志流中并不是真正的选择。因此，我们使用两个日志流，其中一个位于具有严格访问策略的 CloudWatch 日志组中。

目前，我们正在将日志写入单独的磁盘文件，日志代理将日志条目从磁盘文件发送到 CloudWatch。然而，我们希望切换到“Docker 方式”的日志记录，即将所有日志写入 STDOUT 或 STDERR，并让日志驱动程序处理其余的事情。这听起来特别有吸引力，因为日志磁盘（几乎）是我们正在使用的唯一磁盘安装，摆脱它们确实非常好。（除了日志磁盘之外，我们的容器是严格只读的。）

问题是，我们无法找到一种明智的方法来保持日志流分离。显而易见的事情是以某种方式标记日志消息并稍后将它们分开，但仍然存在一个问题：

明智的方法是让日志驱动程序根据消息标签将消息分离到不同的日志流。Docker 的 awslogs 日志驱动程序不支持此功能。
“强力”方法是写入单个 CloudWatch 日志流，并使用写入其他两个日志流的自写过滤器重新处理该流。由于 CloudWatch 计费基于 API 调用，这基本上会使成本翻倍，因此是不可能的。
我们还可以设置一个日志主机，并使用另一个 docker 日志驱动程序（例如 syslog）将所有日志发送到那里。然后我们可以分割日志流，并将它们转发到 CloudWatch。这会给所有日志记录增加一个瓶颈和一个单点故障，所以听起来也不太好。

希望我们遗漏了一些明显的东西，在这种情况下，我们将非常感谢您的帮助。

如果没有，是否有任何解决方法（甚至是适当的解决方案）来让这种事情发挥作用？

amazon-web-services amazon-cloudwatch docker amazon-ecs

Bas*_*ass

lucky-day

5
推荐指数

1
解决办法

3813
查看次数

当 ECS 服务无法持续成功启动任务时创建 CloudWatch 警报

如果我向我的 ECS 服务发布了一个存在错误的新 Docker 映像，则该服务将尝试启动新任务，但如果新任务无法启动，则将保留旧版本。

在这种情况下，它有时（并非总是）会向总线发出一个事件，例如：

服务 xxx 无法持续成功启动任务。有关详细信息，请参阅故障排除部分。

有时它只会发出大量事件，例如：

服务 xxx 注销了目标组 yyy 中的 1 个目标

我希望在这种情况下触发 CloudWatch 警报。我怎样才能做到这一点？

我看不到任何跟踪可用于触发此警报的相关事件的 CloudWatch 指标。https://docs.aws.amazon.com/AmazonECS/latest/developerguide/cloudwatch-metrics.html

如果任务无法启动，那么我什至无法获得有关 LB 目标组的任何 UnHealthyHostCount 指标。

我想我必须创建一个 EventBridge 规则来监视上述指定的事件，但我看不到让该规则触发警报的明显方法。我设置了一条规则，将“警告”和“错误”事件转发到 SNS/电子邮件，但我并不总是收到这些事件。所以我经常遇到重启循环而没有警报触发。:-(

monitoring amazon-web-services amazon-cloudwatch amazon-ecs

Ric*_*ich

2020 10-07

5
推荐指数

1
解决办法

4007
查看次数

CloudWatch InSights：如何以列表形式一次性提取/查询所有 JSON 数组元素

我的公司已开始使用 JSON 日志记录，以便更好地支持 AWS 上的 CloudWatch InSights 查询。查询非常容易使用，除非我们处理数组数据。

例如，如果我们有如下所示的日志条目：

{
  "id": 123,
  "method": "getRelatedPolicies",
  "policiesRetrieved": [
    "333g",
    "444q"
  ]
}
{
  "id": 222,
  "method": "getRelatedPolicies",
  "policiesRetrieved": [
    "123q",
    "234w",
    "345e",
    "456r"
  ]
}
{
  "id": 432,
  "method": "getRelatedPolicies",
  "policiesRetrieved": [
    "345e"
  ]
}

Run Code Online (Sandbox Code Playgroud)

它们在 CloudWatch Insights 中展平，如下所示：

  id                    123,
  method                getRelatedPolicies
  policiesRetrieved.0   333g
  policiesRetrieved.1   444q


  id                    222,
  method                getRelatedPolicies
  policiesRetrieved.0   123q
  policiesRetrieved.1   234w
  policiesRetrieved.2   345e
  policiesRetrieved.3   456r


  id                    432,
  method                getRelatedPolicies
  policiesRetrieved.0   345e

Run Code Online (Sandbox Code Playgroud)

但是我该怎么做才能搜索policiesRetrieved 数组包含该值的任何日志条目呢345e？数组中可能有任意数量的条目，所以我不能只是开始添加像or policiesRetrieved.0 = …

amazon-web-services amazon-cloudwatch

Mic*_*ryl

lucky-day

5
推荐指数

1
解决办法

3万
查看次数