目前我正在为我们的服务器设置监控服务。我找到了一些文章,推荐使用:Netdata, prometheus and grafana
所以我想知道使用这三种方法有什么好处。任何人都可以向我解释一下,为什么推荐 prometheus 和 grafana,如果 netdata 似乎与这两者做同样的事情?
即使在 netdata-documentations 中,也有一篇关于此设置的文章: https: //learn.netdata.cloud/docs/agent/backends/prometheus/#filtering-metrics-sent-to-prometheus
这个星座有什么好处呢?
我最近在我拥有的 Amazon EC2 debian 实例上安装了netdata。Netdata 非常酷,漂亮的图表/图形,轻松安装(与其他人相比)。
我每天都会多次收到一条消息,例如
1m ipv4 udp receive buffer errors = 9 errors
number of UDP receive buffer errors during the last minute
Run Code Online (Sandbox Code Playgroud)
几分钟后,一条恢复消息。一天中可能有数百个 UDP/TCP 指示的错误。我还在家里运行的服务器上看到了类似的模式。
多年来,我使用过其他监控包,从未见过此类错误。我怀疑某些级别的错误,尤其是在 UDP 上,是正常的,是吗?这是预期的行为吗?我可以关闭对这些警报的监控吗?
我已经搬到家里机器上的第二个网卡,行为没有本质的变化。
在中等规模的环境中,这个可接受的以太网错误数量是多少?表明我可能有严重的问题,我当然可以在家里尝试其他网卡。但是我会在我的 EC2 实例上解决这个问题吗?
可能还值得注意的是 logwatch 根本没有报告任何问题,但是,它可能没有为此进行配置。
谢谢指导。