我们有 3 个专用服务器,使用 openVZ 分成几个 VPS。我们使用 munin 来监控生产站点的 VPS,并监控其中一个 VPS 以确保它在出现故障时重新启动服务。
问题是我们需要一种更好的方法来监控我们所有的服务器,因为我们有多达 14 个 VPS,我们希望有一个中心集线器,在那里我们不仅可以看到 munin 收集的数据,还可以看到更多额外的统计数据关于我们服务的网络和性能。
我们的一些要求:
- 失败时的 SMS 通知(设置某些自定义验证的能力)
- apache error_log 和其他一些的日志分析器。
- 必须是中央的(意味着一台服务器和几个收集数据的节点)。
- 不需要易于安装但易于维护。
- 需要自由
我一直在提到 nagios 和 splunk,你怎么看?谢谢,
我编写了一个简单的Nagios插件,它调用mysqlcheck(检查损坏的表),如果有损坏的表会发出警告。
但是,我的表现在都没有损坏。所以我不能 100% 确定我的插件工作正常。我有一个不是关键任务的开发服务器。如何强制其中一个(或任何)表损坏,以便我可以测试我的 nagios 警报?
作为记录,服务器是 Ubuntu Dapper,而 mysql 是 5.0 版
我知道 Zabbix 和 Nagios,但我不知道有任何公司托管这些服务供其他人使用。
我想找到一种解决方案,至少可以监控我的一些公共 URL(如果它们返回预期结果)。
我有几个 nagios 服务器目前通过短信和电子邮件提醒我,但我想添加拨出电话。理想的解决方案是让 nagios 机器给我的手机打电话,并在整个通话过程中播放 mp3/wav,让我知道出了什么问题。我唯一的问题是我不确定如何实现这一点。
我怀疑我可能必须购买 PBX 卡才能做到这一点,但我希望这里有人用普通的调制解调器和现成的软件做过类似的事情。任何想法或提示?
我正在使用 52" 1080p LCD 屏幕来监控 Nagios,该屏幕位于大多数用户可以看到的位置。
使用默认的 Nagios web 视图有点糟糕,因为您需要将文本大小增加到适当的数量,以便从远处清晰可见,然后“当前网络状态”、“主机状态总计”和顶部的其他框取占据了大部分屏幕空间;您无法真正看到主机详细信息列表。
是否有 Nagios 的自定义视图、插件或可用的东西,用于在带有大文本的大屏幕上显示 Nagios 详细信息?
有没有一种规范的方法来找出yum update系统上次运行的时间?
我们的设置是我们有运行自动更新的暂存服务器,如果它们不会发生故障,我们将大约每月手动更新一次我们的生产服务器(关键更新除外)。(我说手动,理想情况下我想手动触发所有更新,但这是另一个问题)。
但是你会很忙,任务会延误等等。所以我想设置一个 nagios 支票,如果我们离开它太久就会开始打扰我们。
搜索网络并没有让我走得很远。浏览系统,到目前为止我发现的最好的东西是这样的:
grep Updated /var/log/yum.log | tail -1 | cut -d' ' -f 1-2
Run Code Online (Sandbox Code Playgroud)
这给了我类似的东西Mar 12,然后我可以将其转换为日期。关于日期是今年还是去年有一些小问题/var/log/yum.log.1,如果在 logrotate 后立即检查,我还需要检查。但这只是脚本细节。
这当然可以被单个包的更新而不是一般更新“愚弄”。
那么有没有更规范的方式来查看何时yum update运行?
编辑:我现在已经编写了一个 Nagios NRPE 插件,它使用了我在问题中提出的想法。你可以从https://github.com/aptivate/check_yum_last_update获取它
所以我们在 CentOS 上运行 Groundworks(使用 Nagios)来监控我们的各种服务器和进程。我已将其设置为在事情达到“警告”或“关键”状态时自动发送电子邮件和 SMS 文本。通常这可以完美运行。但是,在 Postfix 决定停止发送电子邮件的服务器上,我们两次遇到 Postfix 问题。最近一次持续了 4 天,因为我们都没有注意到。
这引出了一个重要的问题:我应该如何监控我的监控服务器?
现在我正在使用这些值:
# y = c * p / 100
# y: nagios value
# c: number of cores
# p: wanted load procent
# 4 cores
# time 5 minutes 10 minutes 15 minutes
# warning: 90% 70% 50%
# critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
Run Code Online (Sandbox Code Playgroud)
但是这些值几乎是随机选取的。
有人有一些测试值吗?
我有一个 Windows 服务器,它有时会在更新后重新启动到安全模式。我正在解决这个问题,但我真正想知道的是如何检查 Windows 是否在安全模式下运行。
理想情况下,我想将它合并到一个脚本中,该脚本将向我们的 Nagios 框发送带有状态的被动检查。
是否有一些我可以使用的环境变量或某种方式通过命令行获取此信息?