我只想监控一小部分服务器(少于 10 个)。
从阅读不同的地方,听起来像领先的竞争者(至少对于开源)是:
根据我的阅读,很多人倾向于将 munin 和 nagios 一起使用 - munin 用于历史和图表,而 nagios 用于警报。
另一方面,听起来 Zabbix 是一个更完整的解决方案,比其他两个更容易配置。所以我想走这条路。
我现在的想法是:
我知道 Zabbix 和 Nagios,但我不知道有任何公司托管这些服务供其他人使用。
我想找到一种解决方案,至少可以监控我的一些公共 URL(如果它们返回预期结果)。
我是 Zabbix 和企业监控的新手。我刚刚安装完 Zabbix 2.4。
我正在尝试监视我们vhosts在不同服务器上的所有脱位状态。
到目前为止,我想出的唯一解决方案是Web scenario为每个vhost我想要监控的服务器手动添加一个到 Zabbix Server 主机。但它不是那么好用。
四处搜索我发现了一个具有部分功能想法的论坛主题:使用 atemplate从目标服务器读取所有vhosts(通过 a macro)并Web scenario为每个vhost.
编辑:此解决方案(基于 Zabbix 2.2)不起作用,因为无法将 LLD(低级发现)与Web scenarios.
有一个功能请求,因为11月14日开放来实现LLD的Web scenarios。
问题是是否有一些解决方案或建议来说明如何在等待功能实现时进行这种监控,或者我的方法可能完全错误。
我对 nagios、opennms 和 zenoss 进行了一些研究,但我不确定我是否找到了我要找的东西。
我现在的主要驱动力是能够监控备份。这包括 mysql、mssql 和最终的一些文件系统备份。
我们有一个工具可以包装这些不同系统的备份过程并收集统计信息。所以,像这样的项目:
我希望能够 A) 如果作业未按计划运行,则收到通知 B) 能够设置触发通知的统计数据阈值 C) 我希望能够对统计数据进行趋势分析和绘图
我计划通过 HTTP POST 将此信息发送到监控应用程序。或者,监控应用程序也可以从日志文件中提取它。
但是,我们将有其他“任意”(从监控系统的角度来看)静态的其他流程,这些静态将要监控和趋势,因此灵活性非常重要。
一个或多个工具还应该能够对网络接口、服务器负载等进行一般监控和趋势分析。一旦我们进行了备份监控,我们也希望包括这些项目。
谢谢。
跟进:
我决定按给定的顺序尝试以下操作:
一旦我做出决定,我会回帖,可能需要一段时间才能实现。
我最近在 VPS 上安装了 Zabbix 服务器并且对它非常满意。我已经在 appr 上安装了客户端。6-7 个其他 VPS,一切正常。界面很流畅,它产生了一些非常漂亮的图形。
我对该软件的唯一问题是我已将其设置为发送问题通知,但我每天会收到 30 到 60 封电子邮件。总是出现“服务器 XXX 无法访问:问题”,一分钟后:“服务器 XXX 无法访问:OK”。当然,Zabbix 也能识别出真正的问题,例如当服务器重新启动时。在我看来,Zabbix 似乎非常快地“放弃”,或者可能比适合我的需要的超时更快。我一直试图用谷歌搜索这个问题好几次,但放弃了,所以现在我正在尝试这种方法。
有谁知道如何调整这些通知/触发器的保真度?
我们有一个 Zabbix 环境,我们试图通过安装在每个位置的代理来监控客户网络上的系统。许多客户站点共享相同的 IP 范围,这似乎是 Zabbix 的一个问题。
我们遇到了一个问题,受监控的主机在代理之间跳来跳去。当一切正常时,主机看起来像:

但出于某种原因,该站点的 server3.office.wolpertinger.com 主机被分配给 aardvark 的代理:

(这发生在几个不同的主机上,但为了诊断目的,我选择专注于这个特定的主机)
这个问题的最终结果是,zabbix server 在为代理构建配置时,可能没有包含所有必要的主机信息,以便代理可以正确监控代理。
例如,服务器在发送到 wolpertinger 的代理时将无法包含有关 server3.office.wolpertinger.com 的信息,然后突然该服务器被标记为无法访问一个小时。
我试过了:
都没有效果。
我需要做什么来解决这个问题?
aardvark 的发现规则状态:
发现规则的监控页面:

(你可以看到 zabbix 是如何对它看到的主机感到困惑,尽管发现规则被设置为通过 system.uname 来区分)
wolpertinger 的发现规则状态:
发现规则的监控页面:

发现动作规则:

各个主机的实际主机配置是:
注意:这里的代理应该是 wolpertinger
和:

有一次我意识到 Windows 不使用 system.uname 中的 FQDN,所以我认为它可能在主机之间是相同的:
server2.office.aardvark.com: Windows SERVER2 6.1.7601 Microsoft Windows 7 Professional Service Pack 1 x86
server3.office.ostrich.com: Windows SERVER3 6.1.7600 Microsoft Windows Server 2008 R2 Standard Edition x64
server2.office.ostrich.com: Windows SERVER2 6.1.7600 Microsoft …Run Code Online (Sandbox Code Playgroud) 在我的 zabbix 服务器中,出现此错误。
Zabbix icmp pinger 进程繁忙超过 75%
任何人有一些建议如何解决它?
问候
我有 Zabbix 监控 MySQL 服务器,MySQL Command Counter图表很好,但是图表的很大一部分显示了大量Questions, 与SELECT或不同INSERT,QuestionMySQL 和 Zabbix中的含义是什么?
Zabbix 能够监控支持 SNMP 的设备,甚至可以在其 Web 界面中显示它们的状态:

绿色图标表示 Zabbix 正在接收数据。

红色图标表示 Zabbix 没有接收数据。
但是,如果 SNMP 设备不可用,我找不到任何明显的方法让 Zabbix 通知我。
今天我发现我的一台服务器磁盘空间不足;磁盘正在被 SNMP 监控,但自 12 月 15 日以来 Zabbix 没有收到任何数据!一直以来它都显示这个红色图标,但我当时没有理由查看主机列表,因此我错过了它。直到今天服务器因磁盘空间不足而死机,我的手机在晚餐中响起......
在调查中我发现,当然,snmpd is stopped。我本来希望两个月前就收到通知!
发生这种情况时,Zabbix 不应该生成事件吗?Zabbix 手册没有提及它。而谷歌只想告诉我如何监控特定的 OID。当 SNMP 设备根本没有响应时,我如何得到通知?
显而易见的方法是创建一个触发器,尽管我不知道这个数据点可能有什么项目名称(同样,它不在手册中或从 Google 中明显可见)。
服务器是 Zabbix 2.0.9,我使用它的内置模板 SNMP 磁盘模板。
我有 zabbix 监控多台服务器(Linux 和 Windows)。是否可以让 zabbix 自动化服务,它们会自动重启?
zabbix ×10
monitoring ×3
nagios ×2
cacti ×1
hosted ×1
linux ×1
mysql ×1
snmp ×1
virtualhost ×1
zabbix-agent ×1