我们正在使用 AWS Cloudwatch 来监控 CPU 使用率、API 调用的 p99 延迟等。问题是在高峰流量期间,Amazon Cloudwatch Agent 本身的 CPU 使用率为 25%-35%,因此在很大程度上导致了高 CPU 使用率触发。我观察到 p99 延迟指标和 CPU 使用率指标之间存在直接关联。
我将 Amazon Cloudwatch 的配置文件粘贴到此处:
[agent]
collection_jitter = "0s"
debug = false
flush_interval = "1s"
flush_jitter = "0s"
hostname = ""
interval = "60s"
logfile = "/opt/aws/amazon-cloudwatch-agent/logs/amazon-cloudwatch-agent.log"
logtarget = "lumberjack"
metric_batch_size = 1000
metric_buffer_limit = 10000
omit_hostname = false
precision = ""
quiet = false
round_interval = false
[inputs]
[[inputs.cpu]]
fieldpass = ["usage_active"]
interval = …Run Code Online (Sandbox Code Playgroud) 我们最近正在实施一些新的警报,需要监控 CPU 1 分钟。警报以非常奇怪的方式起作用。他们在显示数据不足标志后的一分钟和一分钟内显示良好状态
原因:数据不足:1 个数据点未知。
我正在尝试设置 CloudWatch 仪表板来监控 S3 存储的总使用情况。我可以添加每个 BucketSizeBytes 指标,然后使用方程SUM(METRICS())并查看总数,但如果我使用 aSEARCH()包含所有MetricName="BucketSizeBytes",则SUM()不会返回任何值。我还需要在公式或搜索中添加其他内容才能使其发挥作用吗?
用屏幕截图可能更容易解释
我有许多 lambda 函数运行我的无服务器后端。某处出现异常,我需要从所有日志组中调出/搜索特定时间 \xe2\x80\x94\xc2\xa0 的所有日志,而不仅仅是单个日志组或单个流。
\n有没有一种好方法可以搜索所有日志组和所有流?
\n我已经尝试过控制台,但这坚持从日志组(对于 lambda,这些等同于函数)向下驱动并使用命令行,这也仅适用于每个日志组。
\n理想情况下,我希望首先能够查看一天内所有函数执行的所有报告,这样我就可以查询以查看哪些函数失败或运行时间过长。
\n有没有办法在所有日志中搜索我的所有功能?
\n预先感谢 \xe2\x80\x94\xc2\xa0 如果您需要更多详细信息,请告诉我。
\n麦克风
\n我正在运行 Amazon linux AMI,并且我设置的警报全部显示为 UT(通用时间)。阅读这些警报很不方便,我希望它们设置为在东部时区(或美国/纽约)阅读。
我已经将我的 /etc/localtime 设置为指向 -> /usr/share/zoneinfo/America/New_York
ln -s /usr/share/zoneinfo/America/New_York /etc/localtime
Run Code Online (Sandbox Code Playgroud)
但它仍然在 UT 时区发送警报。
有没有人有解决方案?
有时,在查看 AWS SQS Cloudwatch 指标图表(例如 NumberOfMessagesSent)时,绘制的图表将显示实际数据点为零,而其他时候则根本不会显示任何内容。
这两项措施有何区别?