Icinga - 分布式环境中非常高的检查延迟

Question

Icinga - 分布式环境中非常高的检查延迟

我有一个分布式 Icinga 设置，设置如下：

中央

仅接收被动检查结果

分布式A

227台主机

835服务

分布式B

67台主机

243服务

在中央服务器在任何时候都坐落在1秒以下的平均潜伏期检查。分布式 B目前的平均检查延迟约为 10 秒左右，但随着我们添加更多检查，这一数字也在攀升。

分布式 A有一些严重的检查延迟问题（有时长达 700 秒，重新加载后更少，但它会重新建立），我似乎无法确定。这是当前的 icingastats 输出：

Icinga Stats 1.10.3
Copyright (c) 2009 Nagios Core Development Team and Community Contributors
Copyright (c) 1999-2009 Ethan Galstad
Last Modified: 02-11-2014
License: GPL

CURRENT STATUS DATA
------------------------------------------------------
Status File:                            /var/lib/icinga/status.dat
Status File Age:                        0d 0h 0m 3s
Status File Version:                    1.10.3

Program Running Time:                   1d 17h 30m 44s
Icinga PID:                             1160
Used/High/Total Command Buffers:        0 / 11 / 4096

Total Services:                         839
Services Checked:                       839
Services Scheduled:                     839
Services Actively Checked:              839
Services Passively Checked:             0
Total Service State Change:             0.000 / 6.250 / 0.007 %
Active Service Latency:                 644.742 / 776.293 / 729.813 sec
Active Service Execution Time:          0.010 / 20.163 / 0.720 sec
Active Service State Change:            0.000 / 6.250 / 0.007 %
Active Services Last 1/5/15/60 min:     18 / 274 / 717 / 839
Passive Service Latency:                0.000 / 0.000 / 0.000 sec
Passive Service State Change:           0.000 / 0.000 / 0.000 %
Passive Services Last 1/5/15/60 min:    0 / 0 / 0 / 0
Services Ok/Warn/Unk/Crit:              835 / 2 / 1 / 1
Services Flapping:                      0
Services In Downtime:                   0

Total Hosts:                            227
Hosts Checked:                          227
Hosts Scheduled:                        227
Hosts Actively Checked:                 227
Host Passively Checked:                 0
Total Host State Change:                0.000 / 0.000 / 0.000 %
Active Host Latency:                    0.000 / 772.310 / 726.904 sec
Active Host Execution Time:             0.006 / 0.338 / 0.030 sec
Active Host State Change:               0.000 / 0.000 / 0.000 %
Active Hosts Last 1/5/15/60 min:        14 / 22 / 196 / 227
Passive Host Latency:                   0.000 / 0.000 / 0.000 sec
Passive Host State Change:              0.000 / 0.000 / 0.000 %
Passive Hosts Last 1/5/15/60 min:       0 / 0 / 0 / 0
Hosts Up/Down/Unreach:                  227 / 0 / 0
Hosts Flapping:                         0
Hosts In Downtime:                      0

Active Host Checks Last 1/5/15 min:     14 / 28 / 192
   Scheduled:                           14 / 26 / 188
   On-demand:                           0 / 2 / 4
   Parallel:                            14 / 27 / 190
   Serial:                              0 / 0 / 0
   Cached:                              0 / 1 / 2
Passive Host Checks Last 1/5/15 min:    0 / 0 / 0
Active Service Checks Last 1/5/15 min:  31 / 276 / 702
   Scheduled:                           31 / 276 / 702
   On-demand:                           0 / 0 / 0
   Cached:                              0 / 0 / 0
Passive Service Checks Last 1/5/15 min: 0 / 0 / 0

External Commands Last 1/5/15 min:      0 / 0 / 0

Run Code Online (Sandbox Code Playgroud)

这似乎不是外部检查缓冲区问题，因为它始终为 0。我玩过收割者设置并尝试了最大收割者检查时间 (5,10,30) 和收割者频率 (1,5, 10）似乎没有什么可以减少时间。

检查 status.dat，并不是说某些检查正在推动平均值上升。所有服务检查和主机检查都显示平均延迟（700+ 秒）。全面检查执行时间很短。绝大多数是>1秒。从那里，有 143 个检查需要超过 1 秒但不到 2 秒。有 50 次检查需要 4 秒以上。4 次检查在此点之上，分别耗时 8、10、17 和 20 秒。这些数字对我来说似乎并不表示实际的检查时间问题。

服务器本身并没有在资源方面挣扎，CPU 和内存都很好。另外值得注意的是，CENTRAL 和 DISTRIBUTED A 服务器位于相同的物理基础架构上，尽管是不同的虚拟机。

Answer 1

Hei*_*ter 2

我不确定这是否能完全解决您的问题，但这里有一些地方值得一看。

您似乎正在使用 Icinga v1，这意味着您拥有完全顺序的 Icinga 核心。这意味着它会在检查后运行检查。如果您的检查花费太多时间，则会产生延迟。此外，如果您在检查后需要执行某些操作，这也会延迟下一次服务检查（例如 NSCA 发送或其他），甚至会完全影响您的性能。因此，您不会直接测量这一点，因为这不是机器负载的问题，而是 Icinga 负载的问题。

释放 Icinga 实例负载的解决方案之一是使用额外的工具。例如，为了分发支票，您可以使用mod gearman 。这通常用于制作 nagios/icinga 设置规模。如果您使用 NSCA，我们开发了一个工具来异步发送，以减轻 Icinga 的负担。

我希望这个能帮上忙。

归档时间：	10 年，11 月前
查看次数：	1135 次
最近记录：	10 年，11 月前