如果某些值超过我的阈值,我让 Munin 通过电子邮件通知我。这很好用,我很满意。但是,有一个小故障。如果我的任何值处于严重或警告状态,并且 Munin 向我发送了有关它的通知,那么在下一次 Munin 更新运行时,我会再次收到相同的通知,无论状态没有变化。我发现 Munin 默认每 5 分钟运行一次更新。
有没有办法让/强制 Munin 仅在状态更改时发送单个电子邮件(即第一封电子邮件用于临界值,第二封用于恢复正常,而不是临界-临界-...-临界-正常)?
我的任务是设置 300 台服务器的监控,做不同的事情。我一直在研究各种工具,例如 Nagios、Munin 和其他工具——所以我首先对如何实现监控有了一个很好的想法。
我想知道的是,如果我对服务器不太了解,通常将哪些指标作为良好的默认值进行监控?而且,就警报而言,什么是“合理的默认值”?
我的计划是首先部署一个具有合理默认值的监控方案,同时我会规划不同系统的角色——我预计这需要一些时间。
这个问题也可以用不同的方式问:
如果你正在设计一个监控设备——它的默认 Linux 监控模板应该包含什么?
我们在其中一台服务器上安装了 munin 监控。一般来说,它似乎运行良好,但有时,准确地说是 2 个月内 4 次,munin-cron 会产生以下错误:
[致命] 这里没有什么可做的,因为没有带有任何插件的节点。请参阅http://munin-monitoring.org/wiki/FAQ_no_graphs在 /usr/share/munin/munin-html 第 38 行
在搜索此错误时,我只能找到 munin 根本无法工作的问题,而不是我们面临的间歇性问题。
一些帮助防止此错误或如何调试它将不胜感激。
我们正在运行 CentOS 5.5,使用 yum 安装的 Munin 1.4.5。
我的托管服务提供商已将硬盘驱动器插入我的服务器,该硬盘驱动器过去似乎出现过某种错误,但完整的离线智能检查显示目前一切正常(大约)。服务器有一个 RAID1,所以我可以忍受这种情况。
问题是(根据手册页)如果过去出现错误,smartctl 会设置第 6 位,所以现在一切正常,退出代码是数字 64。
默认情况下,智能插件的阈值配置为 0,虽然我知道我可以将阈值设置为 64,但我会错过更重要的第 3 位“磁盘故障”。
有没有办法以某种方式设置阈值,以便 munin 对值进行按位比较?
Debian 7.5 Nginx/1.6.0 PHP 5.6.0RC2 (fpm-fcgi) (build: Jul 11 2014 08:17:52) Munin v2.0.21-2
我在网上搜索了几天来寻找我的问题的答案,但似乎没有人知道该怎么做。我让 Munin 启动并运行,但 Munin 动态图形缩放 (dynazoom) 不起作用,这似乎是 cgi 的问题我已经使用 spawnfcgi 用 lighttpd 和 apache 测试了 Munin,一切正常,但不能使用 php5-fpm。缩放屏幕上的图形显示但没有 php5-fpm 它只是显示一个损坏的图像链接就像这个图像http://serversupportforum.de/forum/attachments/monitoring/4901d1373968950-munin-dynazoom-funktioniert-nicht-1592281191 .png "穆宁动态图缩放(dynazoom)"
现在很多人都在使用 Nginx 和 php-fpm,所以我认为这对很多人都有很大帮助。例如:https : //stackoverflow.com/questions/18645812/munin-dynamic-graph-zoom-dynazoom-not-working-centos6-nginx-php-fpm
这是我的 nginx 配置文件:
user www-data;
worker_processes 4;
pid /run/nginx.pid;
events {
worker_connections 768;
# multi_accept on;
}
http {
##
# Basic Settings
##
sendfile on;
tcp_nopush on;
tcp_nodelay on;
keepalive_timeout 65;
types_hash_max_size 2048;
# server_tokens off;
# …Run Code Online (Sandbox Code Playgroud) 我无法让 Munin 动态变焦工作。我很确定问题与 Nginx 配置有关。任何生成缩放图的尝试都会触发 nginx 日志中的以下错误条目:
2015/02/22 13:26:01 [error] 4782#0: *2580 open() "/data/munin/usr/share/munin/cgi/munin-cgi-graph/bellaria/antergos1.bellaria/diskstats_latency/AntergosVG_AntergosRoot-pinpoint=1421756527,1424607727.png" failed (2: No such file or directory), client: 10.10.10.25, server: munin, request: "GET /usr/share/munin/cgi/munin-cgi-graph/bellaria/antergos1.bellaria/diskstats_latency/AntergosVG_AntergosRoot-pinpoint=1421756527,1424607727.png?&lower_limit=&upper_limit=&size_x=800&size_y=400 HTTP/1.1", host: "munin.bellaria", referrer: "http://munin.bellaria/static/dynazoom.html?cgiurl_graph=/usr/share/munin/cgi/munin-cgi-graph&plugin_name=bellaria/antergos1.bellaria/diskstats_latency/AntergosVG_AntergosRoot&size_x=800&size_y=400&start_epoch=1421756527&stop_epoch=1424607727"
Run Code Online (Sandbox Code Playgroud)
具体来说,我怀疑 fastCGI 参数有问题。好心人可以看看我的 Munin 虚拟服务器(见下文)并向我解释有什么问题吗?这让我发疯 - 但我有一种预感,任何专家都会在几分之一秒内确定问题......
# Munin server
server {
listen 80;
server_name munin munin.bellaria;
root /data/munin;
allow all;
access_log logs/munin.access.log;
error_log logs/munin.error.log;
location / {
index index.html index.htm index.php;
}
location ~ \.(php|html|html|cgi)$ {
fastcgi_pass unix:/run/php-fpm/php-fpm.sock;
fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name;
fastcgi_param AUTH_USER $remote_user;
fastcgi_param REMOTE_USER …Run Code Online (Sandbox Code Playgroud) 我想启用 jmxremote 以使用 Munin 监控 Apache Tomcat 资源利用率,但我想知道这是否会影响服务器性能,是这样,会受到多大影响。
我在几台服务器上使用过 munin,这是第一次花费我这么多时间来设置它。
当我直接 telnet munin 时,我可以列出服务,日志没有错误,并且 munin 每 5 分钟更新一次。但是没有创建 html 文件。我正在使用默认位置 (/var/cache/munin/www),我可以确认该目录的权限设置为 munin.munin
(IP和域名已更改)
munin.conf:
dbdir /var/lib/munin
htmldir /var/cache/munin/www
logdir /var/log/munin
rundir /var/run/munin
[example.ne.jp;]
address 100.100.50.200
Run Code Online (Sandbox Code Playgroud)
munin-node.conf:
log_level 4
log_file /var/log/munin/munin-node.log
pid_file /var/run/munin/munin-node.pid
background 1
setsid 1
user root
group root
host_name example.ne.jp
allow ^127\.0\.0\.1$
allow ^100\.100\.50\.200$
allow ^::1$
Run Code Online (Sandbox Code Playgroud)
/etc/hosts :
100.100.50.200 example.ne.jp mail.example.ne.jp
127.0.0.1 localhost
Run Code Online (Sandbox Code Playgroud)
$ telnet example.ne.jp 4949
Trying 100.100.50.200...
Connected to example.ne.jp.
Escape character is '^]'.
# munin node at example.ne.jp
list
apache_accesses apache_processes apache_volume cpu …Run Code Online (Sandbox Code Playgroud) 我的一台服务器遇到问题,munin 无法正确编写每个图表附带的文本。它被写成随机方块,但我在日志中没有找到任何可以指出问题的内容。

有人遇到过类似的问题吗?提前致谢,西蒙。
更新
我在 /var/mail/root 中发现了一些关于 pango 问题的行:
Pango-WARNING **: failed to choose a font, expect ugly output. engine-type='PangoRenderFc', script='latin'
Run Code Online (Sandbox Code Playgroud) munin ×10
linux ×3
monitoring ×3
nginx ×2
centos ×1
debian ×1
fastcgi ×1
jmx ×1
nagios ×1
php-fpm ×1
rrdtool ×1
smart ×1
tomcat ×1
ubuntu-12.04 ×1
ubuntu-14.04 ×1