我们使用 Nagios,当有事情发生时我会收到短信。许多其他系统管理员也会收到短信。但是,人们是否有其他聪明/酷炫的方式收到 nagios 警报?
如何使用 Nagios 监控 Windows 客户端?是否有任何替代解决方案可用?
我有几个进程占用了大量系统 CPU 时间(通过查看 vmstat 确定)。有没有一种简单的方法可以找出正在执行的系统调用类型?
我知道有 strace,但是有没有更快更简单的方法?是否存在类似于系统调用的“顶部”之类的东西?
关于监控网络服务器是否在 linux 上启动并运行的软件的任何提示?它应该能够在不知道 URL 的情况下运行。并且它必须具有在站点出现故障时发送电子邮件警报的功能。自己为此编写脚本应该不难,但如果已经有一些不错的东西,这似乎毫无意义。
请注意,我将监视内部服务器,因此这需要是在同一网络上的机器上运行的工具,而不是基于外部 Web 的服务。
请注意,小型和简单的解决方案是首选。
更新:我最终创建了一个我目前正在使用的小型 python 脚本,它可以在这里找到。
我有一个 nagios 服务器设置用于监控 ~ 30 个 Windows 服务器。我想添加一些趋势图表。我读到 nagios 图形插件很简单,很多人使用单独的、独立的图表/趋势工具。
nagios 绘图插件与 ganglia/munin/cacti 等独立产品相比有哪些限制?
我对独立软件包提供而 nagios 图形插件不提供的特定功能和优势感兴趣。
如果服务失败几次,Monit 似乎会放弃重新启动服务,并取消对其进行监控。我在文档中找不到任何关于时间或原因的细节。
我的 Monit 配置将设置如下:
set daemon 10
set logfile /var/log/monit.log
set statefile /var/lib/monit/monit.state
set alert foo@example.com not { nonexist, action, instance }
include /etc/monit/conf.d/*
Run Code Online (Sandbox Code Playgroud)
这是我正在使用的 Monit 规则集的示例:
check process myservice
with pidfile /var/run/myservice/myservice.pid
start program = "/home/myservice/current/start-myservice.sh"
as uid myservice and gid myservice
stop program = "/home/myservice/current/stop-myservice.sh"
as uid myservice and gid myservice
mode active
Run Code Online (Sandbox Code Playgroud)
在我的环境中,我希望它无限期地继续尝试轮询间隔。有没有办法将 monit 配置为从不停止监视服务,即使它没有成功启动?
刚开始在一家新公司工作,我的第一个任务是寻找内部监控系统的替代方案。
他们当前的解决方案是一个 .Net 应用程序,它通过 WAN 检查各种设备(因为他们是一家提供 24/7 支持/“维护”的 IT 咨询公司)。设备范围从路由器/交换机/打印机到 MS 服务器和服务。
在阅读了网站上的无数帖子并在谷歌上广泛搜索之后,似乎一致认为某种 Nagios/Munin 混合是要走的路。
这让我想到了我的问题:
A) 是否可以在公司本地运行 Nagios 服务器并通过 WAN 监控各种外部站点?(他们不希望每个站点都有本地 Nagios 服务器,因为大多数站点相对较小(10-25 台主机)并且站点数量非常大(75-100))。
B) 如果是这样,代理将如何联系 Nagios 后端?通过SSH?HTTP?
C) 除了易受 WAN 链接故障的影响之外,这种解决方案的直接缺点是什么?
感谢任何反馈,我提前为任何误解道歉,因为我对这个行业很陌生。
我看到很多人将 monit 与 runit 结合使用。那不是多余的吗?使用 runit 又有什么意义呢?是不是因为它在处理服务时更可靠(因为它不依赖于 pidfiles)?
谢谢!
最近 Windows Azure 存储 SSL 证书过期,这导致了很多问题。现在,任何用户都可以检索该证书,因此每个人都可能注意到它即将过期。
现在更换即将到期的证书的典型时间范围是多少?是到期前一个月还是到期前一周或任何其他时间?
换句话说,假设我正在验证第三方服务证书并看到它在 N 天后过期。如果我提前一天注意到它可能为时已晚 - 我需要时间联系服务所有者,他们需要时间重新颁发证书并更换它。如果我提前一个月注意到 - 现在发出警报可能还为时过早 - 也许服务所有者将稍后更换证书。
N 的值是多少,如果 SSL 证书将在 N 天后到期,则服务所有者很可能已经忘记了它的到期时间?何时更新即将到期的 SSL 证书的常见做法是什么?
根据SMART数据,你可以判断一个磁盘的健康状况,至少是这个想法。例如,如果我sudo smartctl -H /dev/sda在我的 ArchLinux 笔记本电脑上运行,它会说硬盘驱动器通过了自检,并且基于此它应该是“健康的”。
我的问题是这些信息有多可靠,或者更具体地说:
当然,无论如何我都会备份。我主要是好奇。
monitoring ×10
linux ×5
nagios ×4
monit ×2
alerts ×1
cacti ×1
ganglia ×1
hard-drive ×1
munin ×1
performance ×1
rhel5 ×1
runit ×1
smart ×1
ssl ×1
strace ×1
unix ×1
uptime ×1
web-server ×1