小编nix*_*eek的帖子

地理分布式、容错和“智能”应用/主机监控系统

你好，

我想问一下集体对分布式监控系统的看法和看法，您使用什么以及您知道哪些可能符合我的要求？

要求相当复杂；

没有单点故障。真的。我是认真的！需要能够容忍单/多节点故障，包括“主节点”和“工作节点”，您可以假设没有监控位置（“站点”）中有多个节点，或者位于同一网络上。因此，这可能排除了传统的 HA 技术，例如 DRBD 或 Keepalive。
分布式逻辑，我想在多个网络、多个数据中心和多个大陆上部署 5 个以上的节点。我希望从我的客户的角度来看我的网络和应用程序的“鸟瞰”视图，当你有 50 多个节点，甚至 500 多个节点时，监控逻辑的加分不会陷入困境。
需要能够处理相当合理数量的主机/服务检查，就像 Nagios，一般假设有 1500-2500 个主机和 30 个服务每个主机。如果添加更多监控节点允许您相对线性地扩展，那就太好了，也许在 5 年内我可能希望监控 5000 台主机和每台主机 40 个服务！从我上面关于“分布式逻辑”的注释中添加，很高兴地说：
- 在正常情况下，这些检查必须在 $n 或 n% 的监控节点上运行。
- 如果检测到故障，则对另一个 $n 或 n% 的节点运行检查，关联结果，然后使用它们来确定是否满足标准以发出警报。
图形和管理友好的功能。我们需要跟踪我们的 SLA，了解我们的“高可用”应用程序是否 24x7 都在一定程度上有用。理想情况下，您提出的解决方案应该以最少的方式进行“开箱即用”的报告。
必须有一个可靠的 API 或插件系统来开发定制检查。
需要了解警报。我不想知道（通过 SMS，凌晨 3 点！）一个监控节点认为我的核心路由器已关闭。我确实想知道他们中是否有一定比例的人同意正在发生一些时髦的事情；) 基本上我在这里谈论的是“法定人数”逻辑，或者将理智应用于分布式疯狂！