有人在大规模生产环境中使用 Splunk 吗?

Nan*_*ada 12 log-files splunk

我一直在 splunk.com 上观看视频,真的很难相信人们可以免费获得所有这些功能,但仍然存在“问题在哪里?” 在我的后脑勺。

因此,如果有人真正在生产中使用 Splunk 的人愿意分享他们的经验,也许会突出其优势,例如 Nagios?

非常感谢。

fre*_*eit 12

我们每天将它用于 7+GB 的数据,但我们为此付费。很多。我认为我们获得了一些学术折扣,但大多数情况下我们设法证明花钱是合理的,因为它使审计人员满意,让某人/某事查看我们的日志。

我们使用 nagios。我们已经为 nagios 配置了一些保存的搜索,这些搜索调用生成 nagios 警报或创建RT票证的脚本。因此,例如,在 5 分钟的时间窗口内(跨所有服务器)超过 X 次登录失败将生成警报。这是 nagios 本身无法真正做到的事情。

以前,我们使用SEC来生成这些类型的警报,但效果不佳,仍然有人时不时地尝试在 20GB 文件上使用 grep。

我不确定我们是否再生成任何 nagios 警报;我们已经将大部分(如果不是全部)转换为生成 RT 票证。nagios 警报模型不适用于基于日志分析的事物,它更适合状态可能好或坏的事物,而不是可能需要调查的离散事件。

编辑:

是的,它确实让我们的生活变得更轻松。这比尝试通过日志grep要好得多。我们有 Windows、Linux 和 Solaris 机器向它发送日志。

它是否像某些视频所暗示的那样神奇地找到了您想要的内容?不,它有一些限制,您可能需要做一些配置才能让它很好地处理特定类型的日志。过于“有趣”的搜索可能需要通读文档,然后在 splunk 服务器运行时等待几分钟。但是,说真的,它很摇滚。据我所知,它的联盟中真的没有其他东西。