监控生产服务器

Ada*_*oun 18 monitoring centos nagios splunk

我们有 3 个专用服务器,使用 openVZ 分成几个 VPS。我们使用 munin 来监控生产站点的 VPS,并监控其中一个 VPS 以确保它在出现故障时重新启动服务。

问题是我们需要一种更好的方法来监控我们所有的服务器,因为我们有多达 14 个 VPS,我们希望有一个中心集线器,在那里我们不仅可以看到 munin 收集的数据,还可以看到更多额外的统计数据关于我们服务的网络和性能。

我们的一些要求:
- 失败时的 SMS 通知(设置某些自定义验证的能力)
- apache error_log 和其他一些的日志分析器。
- 必须是中央的(意味着一台服务器和几个收集数据的节点)。
- 不需要易于安装但易于维护。
- 需要自由

我一直在提到 nagios 和 splunk,你怎么看?谢谢,

fau*_*ver 17

我有一个类似的设置,除了 Xen 到位。我对以下组合感到非常满意:

  • Nagios用于警报(使用 PNP 进行一些精简图形,以及 Nagviz 用于服务状态仪表板)
  • 用于系统历史绘图的Ganglia
  • OSSEC作为 HIDS,同样重要的是作为集中日志记录的收集器
    • 旁注:有Splunk的插件OSSEC,集成这两个工具非常好,我在等待他们将它移植到Splunk的V4虽然。
  • Splunk最后,一旦迁移了一些 Splunk 插件,我们计划使用 Splunk 对日志进行一些预过滤(以防止超过免费版本上限)

我希望分享我们的监控设置能帮助你:-)

以下是一些有用的链接:

http://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-1/index.html

https://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-2/

http://www.ossec.net/main/splunk-ossec-integration

更新:

我忘了提到我们也使用 Matt Simmons Nagios 配置布局,可以在这里找到http://www.standalone-sysadmin.com/blog/2009/07/nagios-config/

这种布局使我们的 Nagios 配置更加合理且更易于维护(感谢 Matt!)

  • OSSEC + splunk +1。他们一起工作得很好。 (2认同)

Dav*_*ger 5

我在Zabbix 上取得了巨大的成功,它在一个包中满足了您的所有观点。

替代文字
(来源:zabbix.com

最难的部分是获取 apache 日志监控,但 Zabbix 是可扩展的,因此您可以使用 LogWatch 或其他一些 perl 脚本为您获取数据。