Cassandra 集群监控

Question

我们使用 Nagios 进行服务器监控。

每个网络环境都有 1 个集群作为后端 - Cassanra 2.0。每个集群有 3-5 个节点。

问题是：我想为 Nagios 编写一个插件，用于 Cassandra 的节点监控。不幸的是 - 我不太熟悉 Cassandra，并且不确定 - 究竟需要检查哪些参数？

我刨使用Nodetool实用程序从节点获取数据-但它有很多的命令，每个提供大量的信息（如- ，，等）。cfstatsinfostatus

所以 - 为了监控，我需要获取一些关于每个节点使用情况的内存数据，使用的磁盘空间，可能是 - 别的什么？

Answer 1

基本上你需要开始观察 system.log 并且会得到越来越多的监控错误。

Answer 2

在我的集群中，我使用 jolokia，因此我可以使用 HTTP 访问 JMX 接口。通过这种方式，我可以使用 Python 创建脚本来监控 Cassandra 并向 Nagios 发送警报。

您应该监控的内容：

监控那些已经保存了我的集群几次:)

我运行 2 个集群，一个在我的日常工作中，它有 4 个节点和 3 TB 数据（另外两个节点即将推出），在我自己的公司中有一个小型 3 节点集群。