Cassandra 3.10 debug.log包含频繁的"FailureDetector.java:457 - 忽略......的间隔时间"

Question

Cassandra 3.10 debug.log包含频繁的"FailureDetector.java:457 - 忽略......的间隔时间"

B. *_*eek 9 cassandra

我们的一个Cassandra 3.10集群的debug.log文件有频繁的消息类似于"FailureDetector.java:457 - 忽略......的间隔时间"

即使群集处于空闲状态,也会显示消息.我在这个6节点集群的每个节点上看到的消息速率大约是每秒1个(两个数据中心各有3个节点).

有人能告诉我是什么原因导致这些消息以及它们是否值得关注？

我们有几个其他小集群支持相同的应用程序(不同的环境),我看到这个消息的频率低得多(相隔数天).

Answer 1

And*_*agy 2

负责FailureDetector决定节点是否被视为 UP 或 DOWN。

八卦进程直接（直接与其八卦的节点）和间接（关于二手、三手等信息的节点）跟踪来自其他节点的状态。Cassandra 没有使用固定阈值来标记故障节点，而是使用应计检测机制来计算每个节点的阈值，该阈值考虑了网络性能、工作负载和历史条件。在八卦交换期间，每个节点维护来自集群中其他节点的八卦消息的到达间隔时间的滑动窗口。

在这里您可以找到源代码，其中提供了日志消息。它被设置为 DEBUG 级别，因为它们可能有助于追踪导致延迟的实际问题，但本身并不表明问题。

换句话说：您的节点测量发送到其他节点的每个八卦消息的确认延迟，例如：X nanosec for IP address1, Z nanosec for IP address2, etc.如果X或Y高于中所述的预期 2 秒阈值MAX_INTERVAL_IN_NANO，则会报告。

可能导致此日志消息的问题：

节点上的巨大负载：例如太多的大分区
压力大：例如排序时间内查询过多
网络连接不良

添加了额外的 FailureDetector 日志记录：通过 JMX 从故障检测器公开 phi 值并调整调试和跟踪日志记录 ( CASSANDRA-9526 )

而且我还发现了这个未解决的问题，可能与您的问题有关：当网络不稳定时，故障检测器变得更加敏感（CASSANDRA-9536）

我还发现这篇关于八卦和故障检测的文章非常有用。

归档时间：	8 年，6 月前
查看次数：	1676 次
最近记录：	7 年，3 月前