Reconnoiter是监控领域的新工具。它不仅是一种趋势工具,也是一种警报/故障检测工具。恕我直言,我认为 Reconnoiter 具有非常巨大的潜力,这正是趋势能力。
Recoinnoter 的前提之一是 RRDTool 大型安装在 I/O 使用方面非常低效,我认为这是 RRDTool 的主要问题。
从传统的 RRDTool 前端更改为 Reconnoiter 的困难之一显然是更改成本和学习曲线。
那么,你们中有人有使用 Reconnoiter 的经验吗?学习曲线如何?从 RRDTool 前端应用程序(Cacti、Munin、Ganglia)迁移到 Reconnoiter 是否困难?我期待着阅读您的意见。
我们有一个 4 核 CPU 生产系统,它执行大量 cronjobs,具有恒定的 proc 队列和~1.5 的通常负载。
在夜间,我们用 postgres 做一些 IO 密集型的事情。我们生成一个图表,显示负载/内存使用情况 (rrd-updates.sh) 这有时会在高 IO 负载情况下“失败”。几乎每晚都会发生这种情况,但并非在所有高 IO 情况下都会发生。
我的“正常”解决方案是对 postgres 内容进行优化和离子化,并增加图形生成的优先级。然而这仍然失败。图生成是使用 flock 进行半线程证明的。我确实记录了执行时间,并且在高 IO 负载期间生成图形最多需要 5 分钟,这似乎导致图形丢失长达 4 分钟。
时间范围与 postgres 活动完全匹配(这有时也发生在白天,虽然不是那么频繁)离子化到实时 prio(C1 N6 graph_cron vs C2 N3 postgres),在 postgres 之上(-5 graph_cron vs 10 postgres)很好) 没有解决问题。
假设没有收集数据,额外的问题是 ionice/nice 不知何故仍然无法正常工作。
即使有 90% 的 IOwait 和 100 的负载,我仍然能够免费使用数据生成命令,而没有超过 5 秒的延迟(至少在测试中)。
遗憾的是,我无法在测试中完全重现这一点(只有一个虚拟化的开发系统)
版本:
内核2.6.32-5-686-bigmem
Debian Squeeze rrdtool1.4.3
硬件:SAS 15K RPM HDD,硬件 RAID1
挂载选项中的LVM :ext3 with rw,errors=remount-ro
调度程序:CFQ …
我正在现场为当前使用 Cacti 的许多系统收集 SNMP 数据。这些系统分布在许多并不总是连接到互联网的站点上,但我还需要将数据集中在单个系统(数据中心托管服务器)上并从中获取图表。
如果我使用集中式 Cacti 直接轮询远程系统,我会在站点未连接到 Internet 时丢失数据。我应该在现场记录数据(我在每个站点都有一个服务器,我可以在上面运行我想要的任何东西),然后将所有内容“同步”到中央系统。
一个 hack 可以是 cacti 或直接rrdtool在现场,然后定期将rsyncRRD 数据发送到中央 Cacti 系统,但这听起来不像是一个“干净”的解决方案:每个 RRD 都必须在两个地方定义,并rsync使用特定的文件名。
你能提出更好的解决方案吗?Cacti 不是必需的,但我想在中央系统上使用类似的东西。现场系统只需要收集数据我不需要在那里绘制数据或管理用户查看数据的权限等等,用户只会访问集中式系统。
我注意到我只能用 CACTI 显示一段不间断的时间。我想知道是否可以制作一个仅显示一段时间(一周、一个月等)内的营业时间的自定义图表。
例如,我希望能够显示上个月每周 5 个工作日(周一至周五)上午 8 点到下午 6 点之间平均入站流量的图表。
我尝试为 RRDtool 配置脚本,但我不知道正确的语法。经过多次测试,我发现可以将不同的图形叠加在一起。我想计算所有这些图的平均值,但我不知道该怎么做。
我想配置如下:
--startday 20120604+8h
--endday 20120604+18h
monday: --start startday --end endday
tuesday: --start startday+24h --end endday+24h
wednesday: --start startday+48h --end endday+48h
thursday: --start startday+72h --end endday+72h
friday: --start startday+96h --end endday+96h
DEF:monday=router.rrd:gi0/1:traffic_mon:AVERAGE
DEF:tuesday=router.rrd:gi0/1:traffic_tue:AVERAGE
DEF:wednesday=router.rrd:gi0/1:traffic_wed:AVERAGE
DEF:thursday=router.rrd:gi0/1:traffic_thu:AVERAGE
DEF:friday=router.rrd:gi0/1:traffic_fri:AVERAGE
DEF:traffic_mon:traffic_tue:traffic_wed:traffic_thu:traffic_fri:AVERAGE
Run Code Online (Sandbox Code Playgroud)
我将不胜感激任何帮助。
谢谢你。
我刚刚接管了一个 Cacti 服务器,并且正在从 5 分钟轮询到 1 分钟轮询做噩梦。
到目前为止,我已经将数据模板与Step(从300降到60)和Heartbeat(从600降到120)一起更改,并且我还将cron作业从*/5更改为*/1,最后,在设置下,我将轮询间隔更改为每分钟,将 cron 间隔更改为每分钟。
然而,这样做似乎会导致服务器负载过大,同时许多错误被添加到 /var/log/cacti/poller.log (?) 关于无效 SQL 语句和 RRD 的各种其他问题。
根据我的理解,编辑数据模板不会影响现有的 RRD,它只是设置将在未来创建的 RRD - 因此,我认为错误是因为默认情况下 RRD 文件只有 5 分钟的步骤在我需要的 60 个中。
最重要的是现有数据不会丢失,但是,如果无法合并,可以将其存档 - 到目前为止,我已尝试创建第二个仙人掌服务器以迁移现有数据(然后将它们全部设置为禁用) ,但是,这似乎效果不佳,因为我还没有找到批量导入现有 RRD 的好方法。
在过去的两周里,我一直在做这件事,但没有走得太远,我需要一些专家的帮助!我只是想知道是否有人以前这样做过并且可以提供任何建议/为了迁移我应该做什么?
我开始使用 Munin 进行监控,但我想更改由插件绘制的图形的颜色loggrep。
有没有办法在配置文件中指定颜色?
我正在使用 rrdtools 来存储我的服务器的指标,并想使用 rrddump 命令将此 rrd 转储到 XML。所以需要这种 XML 格式的文档,我在哪里可以找到它?
请原谅我,但我对 rrd 绘图还是个新手。我遇到过很多图表,其中 MIN、MAX 和 AVG 值显示在图例标签旁边。我如何创建这样的图表?
我的一台服务器遇到问题,munin 无法正确编写每个图表附带的文本。它被写成随机方块,但我在日志中没有找到任何可以指出问题的内容。

有人遇到过类似的问题吗?提前致谢,西蒙。
更新
我在 /var/mail/root 中发现了一些关于 pango 问题的行:
Pango-WARNING **: failed to choose a font, expect ugly output. engine-type='PangoRenderFc', script='latin'
Run Code Online (Sandbox Code Playgroud)