我有一个带有自己的交流装置的小型服务器机房。最近空调坏了,温度从华氏 70 度上升到华氏 90 度以上。我们很少去这个房间,所以我很幸运,有人在他们走过门时碰巧注意到风扇的运转声比平时大了很多. 看起来我需要一种方法来在那个房间的温度变得太热时收到通知。
您使用什么工具来监控服务器机房的温度?此工具如何通知您出现问题(电子邮件、SNMP 等)。
注意:我已经阅读了关于服务器温度的这个问题,但我对整个房间感兴趣,而不仅仅是服务器机箱的内部。
编辑:
感谢您到目前为止的所有精彩回复!许多这些产品测量的不仅仅是温度。我还应该看什么,为什么?
我想知道当任何逻辑磁盘分区空间不足时,是否有一种简单的方法可以在 Windows Server 2008 上触发电子邮件警报。由于数据库日志文件,我有 2 个 SQL 服务器几乎耗尽磁盘空间。
谢谢,瑞安
windows-server-2008 hard-drive disk-space-utilization alerts sql-server
我刚刚在我们拥有的少数 Ubuntu 机器之一上收到了一个我以前从未见过的网络警报:
The following monitoring trigger has been fired:
/vmlinuz has been changed on server XXXXX: PROBLEM
2012.09.19 06:24:33
Trigger key: vfs.file.cksum[/vmlinuz]
Value: 3397367448
Host: XXXXX
Run Code Online (Sandbox Code Playgroud)
的校验和vmlinuz改变了。我从维基百科看到这与内核有关。
我应该关心它的校验和已经改变了吗?这个特定的服务器确实运行 Wordpress,它以其 3rd 方插件中的漏洞而闻名,所以我倾向于非常认真地对待它的警报。
我得出的结论是该服务器已被入侵。比抱歉更安全,/var/log/apache2/access.log0 字节也是如此,并且那里应该有一些(不多,但有点)数据,并且它显然看起来像是某种东西(最有可能是机器人)覆盖了他们的踪迹。是时候拿出昨晚的备份了:)
我有一台电源按钮有问题的服务器,它喜欢自行重启。通常会有警告信号,比如 /var/log 中的 acpid 日志文件开始发送垃圾邮件大约 10 小时左右。
有没有一种简单的方法可以让我监视 acpid 日志并在有新活动时给我发送电子邮件?
我不会认为自己非常先进,因此您可能拥有完成此类事情的任何“指南”都将非常有帮助并且非常感谢。谢谢!
理想情况下,安装尽可能简单,无需重新启动服务器。主要是DL380 G5's因为它是否有帮助。
我们使用 Nagios,当有事情发生时我会收到短信。许多其他系统管理员也会收到短信。但是,人们是否有其他聪明/酷炫的方式收到 nagios 警报?
在 Linux 下,自动查看日志文件并在出现某个字符串时给我发送电子邮件的简单方法是什么?我有一个应用程序可以将某些故障记录到日志文件中,但没有内置的发送警报或在失败时执行脚本的方法。我想我可以用 tail -f 和一些 shell 脚本来安装一些东西,但我宁愿使用现有的维护工具,如果它存在的话。
我有一个带管理卡的 APC Smart-UPS 3000(我相信它是 AP9617)。
所以昨晚,我每周进行一次自动自测。测试失败,声称我至少有一个故障电池:
Dec 27 21:19:10 10.16.15.50 UPS: Started a self-test. 0x0137
Dec 27 21:19:12 10.16.15.50 UPS: At least one faulty battery exists. 0x0119
Dec 27 21:19:28 10.16.15.50 UPS: Failed a self-test. 0x0106
Run Code Online (Sandbox Code Playgroud)
管理卡乖乖给我发了两封邮件告诉我这件事:一封说测试失败,一封说我的电池有问题。
问题是,从那以后每两分钟,它就会向我发送相同的两封电子邮件。设备日志暗示测试不会不断重新运行,因此看起来这是某种需要清除或确认的警报。
根据我的电子邮件服务器日志,这些是由管理卡生成的电子邮件——它们在我的电子邮件系统中没有卡住或以某种方式循环。
它开始打扰值班人员。现在我可以关闭电子邮件通知,但这有点违背了拥有它的目的。
那么有没有人知道如何让它停止?理想情况下,无需进入(因为这是假期)或关闭电源(出于某种原因插入了东西)。
谢谢。
我今天使用 Google Analytics 来通知我流量高峰。就我而言,流量高峰通常是由于来自知名网站的链接。
Google Analytics 包含一个新的“智能”功能来报告峰值。不幸的是,今天它只报告我有一个峰值,但没有报告引用站点;相反,它报告流量的地理区域,例如“加利福尼亚”。
这不是一个非常有用的报告维度,因为地理几乎从来都不是流量高峰的原因;这几乎总是由于引用站点。
有没有办法配置 Google Analytics Intelligence 来报告流量高峰的原因(引用站点)?
我知道我的手机提供商的短信网关,所以我可以向它发送电子邮件。
我正在寻找contacts.cfg 和commands.cfg 中特定于移动设备的条目示例。
alerts ×10
linux ×3
email ×2
log-files ×2
nagios ×2
datacenter ×1
hard-drive ×1
hardware ×1
hp-proliant ×1
icinga ×1
logging ×1
monitoring ×1
reporting ×1
server-room ×1
sql-server ×1
storage ×1
ubuntu ×1
vmlinuz ×1