标签: monitoring

聪明的nagios警报方法

我们使用 Nagios,当有事情发生时我会收到短信。许多其他系统管理员也会收到短信。但是,人们是否有其他聪明/酷炫的方式收到 nagios 警报?

monitoring nagios alerts

9
推荐指数
2
解决办法
2930
查看次数

如何使用 Nagios 监控 Windows 主机?

如何使用 Nagios 监控 Windows 客户端?是否有任何替代解决方案可用?

linux monitoring nagios rhel5

9
推荐指数
2
解决办法
2396
查看次数

在 Linux 中监控系统 CPU/系统调用

我有几个进程占用了大量系统 CPU 时间(通过查看 vmstat 确定)。有没有一种简单的方法可以找出正在执行的系统调用类型?

我知道有 strace,但是有没有更快更简单的方法?是否存在类似于系统调用的“顶部”之类的东西?

linux monitoring performance central-processing-unit strace

9
推荐指数
2
解决办法
1万
查看次数

简单的 Web 服务器监控(在线)

关于监控网络服务器是否在 linux 上启动并运行的软件的任何提示?它应该能够在不知道 URL 的情况下运行。并且它必须具有在站点出现故障时发送电子邮件警报的功能。自己为此编写脚本应该不难,但如果已经有一些不错的东西,这似乎毫无意义。

请注意,我将监视内部服务器,因此这需要是在同一网络上的机器上运行的工具,而不是基于外部 Web 的服务。

请注意,小型和简单的解决方案是首选。

更新:我最终创建了一个我目前正在使用的小型 python 脚本,它可以在这里找到。

linux monitoring web-server uptime

9
推荐指数
2
解决办法
2万
查看次数

Nagios 绘图解决方案 vs Munin/Cacti/Ganglia

我有一个 nagios 服务器设置用于监控 ~ 30 个 Windows 服务器。我想添加一些趋势图表。我读到 nagios 图形插件很简单,很多人使用单独的、独立的图表/趋势工具。

nagios 绘图插件与 ganglia/munin/cacti 等独立产品相比有哪些限制?

我对独立软件包提供而 nagios 图形插件不提供的特定功能和优势感兴趣。

monitoring munin nagios cacti ganglia

9
推荐指数
2
解决办法
2万
查看次数

可以将 Monit 配置为从不取消监视/超时服务吗?

如果服务失败几次,Monit 似乎会放弃重新启动服务,并取消对其进行监控。我在文档中找不到任何关于时间或原因的细节。

我的 Monit 配置将设置如下:

set daemon 10
set logfile /var/log/monit.log
set statefile /var/lib/monit/monit.state
set alert foo@example.com not { nonexist, action, instance }
include /etc/monit/conf.d/*
Run Code Online (Sandbox Code Playgroud)

这是我正在使用的 Monit 规则集的示例:

check process myservice
  with pidfile /var/run/myservice/myservice.pid
  start program = "/home/myservice/current/start-myservice.sh"
    as uid myservice and gid myservice
  stop program = "/home/myservice/current/stop-myservice.sh"
    as uid myservice and gid myservice
  mode active
Run Code Online (Sandbox Code Playgroud)

在我的环境中,我希望它无限期地继续尝试轮询间隔。有没有办法将 monit 配置为从不停止监视服务,即使它没有成功启动?

linux monitoring monit

8
推荐指数
2
解决办法
6555
查看次数

Nagios 对 WAN 的“监控”是理想的吗?

刚开始在一家新公司工作,我的第一个任务是寻找内部监控系统的替代方案。

他们当前的解决方案是一个 .Net 应用程序,它通过 WAN 检查各种设备(因为他们是一家提供 24/7 支持/“维护”的 IT 咨询公司)。设备范围从路由器/交换机/打印机到 MS 服务器和服务。

在阅读了网站上的无数帖子并在谷歌上广泛搜索之后,似乎一致认为某种 Nagios/Munin 混合是要走的路。

这让我想到了我的问题:

A) 是否可以在公司本地运行 Nagios 服务器并通过 WAN 监控各种外部站点?(他们不希望每个站点都有本地 Nagios 服务器,因为大多数站点相对较小(10-25 台主机)并且站点数量非常大(75-100))。

B) 如果是这样,代理将如何联系 Nagios 后端?通过SSH?HTTP?

C) 除了易受 WAN 链接故障的影响之外,这种解决方案的直接缺点是什么?

感谢任何反馈,我提前为任何误解道歉,因为我对这个行业很陌生。

monitoring nagios

8
推荐指数
1
解决办法
6334
查看次数

将 runit 与 monit 结合使用有什么意义?

我看到很多人将 monit 与 runit 结合使用。那不是多余的吗?使用 runit 又有什么意义呢?是不是因为它在处理服务时更可靠(因为它不依赖于 pidfiles)?

谢谢!

linux unix monitoring monit runit

8
推荐指数
1
解决办法
1895
查看次数

何时更新即将到期的 SSL 证书的常见做法是什么?

最近 Windows Azure 存储 SSL 证书过期,这导致了很多问题。现在,任何用户都可以检索该证书,因此每个人都可能注意到它即将过期。

现在更换即将到期的证书的典型时间范围是多少?是到期前一个月还是到期前一周或任何其他时间?

换句话说,假设我正在验证第三方服务证书并看到它在 N 天后过期。如果我提前一天注意到它可能为时已晚 - 我需要时间联系服务所有者,他们需要时间重新颁发证书并更换它。如果我提前一个月注意到 - 现在发出警报可能还为时过早 - 也许服务所有者将稍后更换证书。

N 的值是多少,如果 SSL 证书将在 N 天后到期,则服务所有者很可能已经忘记了它的到期时间?何时更新即将到期的 SSL 证书的常见做法是什么?

monitoring ssl ssl-certificate

8
推荐指数
3
解决办法
1674
查看次数

HDD SMART 数据的可靠性如何?

根据SMART数据,你可以判断一个磁盘的健康状况,至少是这个想法。例如,如果我sudo smartctl -H /dev/sda在我的 ArchLinux 笔记本电脑上运行,它会说硬盘驱动器通过了自检,并且基于此它应该是“健康的”。

我的问题是这些信息有多可靠,或者更具体地说:

  • 如果根据 SMART 数据该磁盘是健康的,尽管如此,该磁盘突然发生故障的几率是多少?这假设故障不是由于某些无法预测的灾难性事件造成的,例如笔记本电脑掉在地板上导致驱动器磁头撞击磁盘。
  • 如果 SMART 数据没有表明磁盘状况良好,那么磁盘在一段时间内发生故障的几率是多少?是否有可能出现误报以及这些误报有多普遍?

当然,无论如何我都会备份。我主要是好奇。

monitoring hard-drive smart

8
推荐指数
1
解决办法
1万
查看次数