标签: monitoring

网络监控

可能的重复:
您使用什么工具来监控您的服务器?

你会推荐什么软件来监控网络?我们有一个主服务器,它在其他服务中充当 DNS。我们想监控网络活动:正在使用哪些协议、带宽等。

一种老大哥的事情,知道用户何时尝试在 GMail、Hotmail 等上登录他的个人邮件帐户或使用外部 IM 帐户,这是公司规定不允许的。如果可能的话,阻止这些访问(或能够知道它,以便采取相应的纪律处分)。

我读过 Nagios is a monitoring service,这是我们正在寻找的解决方案吗?还有哪些其他开源替代方案?

networking monitoring

8
推荐指数
2
解决办法
1951
查看次数

我们如何远程监控 VMware ESXI?

我们在多台服务器上安装了 VMware ESXi,我们如何远程监控硬盘、RAM、电源或网卡的问题?

monitoring vmware-esxi

8
推荐指数
1
解决办法
4583
查看次数

Nagios 检查模拟 Web 完整渲染时间

有谁知道可以模拟网页加载时间的 Nagios 插件或 cli 程序,就像在浏览器中一样。

例如,Pingdom 的页测试之类的结果的总加载时间或您从 firebug 获得的时间线。

monitoring performance-monitoring nagios

8
推荐指数
1
解决办法
5678
查看次数

中型企业如何监控网络?

我在一家中型公司(100 多名员工)工作。出现的一个问题是网络性能,尤其是互联网访问。

我们有大约 70 台或更多计算机,混合了 Mac OS X 和 Windows XP & 7 机器。我们有几台服务器(Exchange 服务器、PC 文件服务器、MS SQL、Blackberry、FTP、Mac 服务器等)。有四个主交换机,一个 SonicWall 防火墙,服务器机房中可能有几个路由器,建筑物周围散布着十几个左右的路由器。

多年来,网络结构有机地增长;而且,据我所知,确实没有合适的监控解决方案。当我们遇到网络问题(连接速度慢、数据包丢失等)时,我们的一般解决方案是重启某些硬件或询问每位员工是否正在上传/下载任何大文件。

这确实是低效且耗时的,而且它不允许我们监控网络,主动解决潜在问题。我想找到一种解决方案,让我能够实时监控整个公司的网络使用情况,最好将细节记录到个人计算机上。

鉴于设备和操作系统的大杂烩,建立某种监控解决方案的最佳方法是什么?硬件、软件,重构我们的网络架构?

networking monitoring

8
推荐指数
2
解决办法
1510
查看次数

使用 statsd 的好处?

所以过去几天我一直在玩石墨,我可以看到那里的潜力以及它为何如此强大。

我的主要问题是为什么我应该像 esty 一样在它前面使用 statsd 而其他很多人都这样做?截至目前,我没有看到在石墨前面放置另一个堆栈的大好处。

我希望有人可以清除它

https://github.com/etsy/statsd

monitoring graphite

7
推荐指数
1
解决办法
1223
查看次数

如何编写仅作用于新日志条目的脚本

我觉得这应该是一件简单的事情,但我很难弄清楚。

我正在尝试编写一个脚本来监视其中一个 apache 日志文件并采取一些特定的操作。但是我应该如何监视日志文件?

每次将新行写入日志时,我都希望检查该条目以查看它是否与我要查找的内容匹配,以及是否发生了 x。当我手动执行此操作时,我使用了 cat 或 tail -f。我不想通过 cron 每 30 秒运行一次脚本并浏览整个日志(甚至最后 5 行),找出自上次脚本运行以来哪些行是新的,然后是一些事情。

有没有办法只检查日志中的单个新条目?

scripting monitoring bash logging apache-2.2

7
推荐指数
2
解决办法
1万
查看次数

您将如何测量服务器机房中的大气灰尘量?

我们的磁带库供应商告诉我们,我们可能会看到大量错误的原因之一是我们的服务器机房特别脏。

看起来并不尘土飞扬,但这并不是说它不存在。

我们有一个环境传感器集群,可以测量温度、气流和相对湿度。

我可能应该指出,我想出的低挂水果解决方案是循环使用 Sellotape(透明胶带),一侧粘在服务器机柜上,另一侧自由悬挂。

我还在硬件的出口和入口风扇旁边放了几个其他胶带环(自然不会阻挡气流)。

我们如何(以电子方式,理想地)测量灰尘水平?

monitoring server-room

7
推荐指数
2
解决办法
1031
查看次数

为什么我应该关心 NTP 内核统计信息?

我注意到 munin 绘制了一些我从未完全理解的有关时序/内核统计信息的信息。我的大多数服务器似乎都接近于 0,我认为这很好,但其中一个在其中一个图表上缓慢但稳定地变得越来越负面。

Munin 绘制了以下统计数据随时间变化的图表:

  • NTP 内核 PLL 估计误差(秒)
  • NTP 内核 PLL 频率 (ppm + 0)
  • NTP 内核 PLL 偏移(秒)
  • 系统对等体的 NTP 计时统计

这是 munin 文档中的一个示例:http : //demo.munin-monitoring.org/time-year.html

在网络上搜索 NTP 的简洁、易懂的定义,一无所获(除了一堆 Nagios 和 Munin 图),搜索 Server Fault 会发现大量答案,假设读者已经对 NTP 有所了解。

Stack Overflow 是这样定义的:

NTP 代表网络时间协议,它是一种 Internet 协议,用于将计算机的时钟与某个时间参考同步。

但这似乎有点迟钝——这会影响 Web 服务器、加密或数据库同步吗?

什么是 NTP,我为什么要关心?是否有任何统计数据特别需要确保不会失控?

monitoring ntp

7
推荐指数
1
解决办法
3688
查看次数

如何根据 SNMP 中的原始 CPU 滴答计算 CPU %

根据http://net-snmp.sourceforge.net/docs/mibs/ucdavis.html#scalar_notcurrent ssCpuUserssCpuSystemssCpuIdle等被弃用,以支持原始变体(ssCpuRawUser等)。

前一个值(不包括 nice、wait、kernel、interrupt 等)返回一个百分比值:

在最后一分钟内计算的处理用户级代码所花费的 CPU 时间百分比。

此对象已被弃用,取而代之的是“ ssCpuRawUser(50)”,它可用于计算相同的指标,但可以在任何所需的时间段内计算。

原始值返回 CPU 花费的“原始”滴答数:

处理用户级代码所花费的“滴答”数(通常为 1/100 秒)。

在多处理器系统上,“ ssCpuRaw*”计数器在所有 CPU 上累积,因此它们的总和通常为 N*100(对于 N 个处理器)。

我的问题是:如何将刻度数转换为百分比?

也就是说,你怎么知道每秒有多少滴答声(通常——这意味着不总是——1/100s,这意味着每 100 秒一次,或者滴答声代表 1/100 秒)。

我想您还需要知道有多少个 CPU,或者您需要获取所有 CPU 值以将它们加在一起。我似乎找不到一个 MIB,它可以为您提供 CPU 数的整数值,这使得前一条路线很尴尬。后一条路线似乎不可靠,因为一些数字重叠(有时)。例如,ssCpuRawWait有以下警告:

此对象不会在底层操作系统不测量此特定 CPU 指标的主机上实现。 该时间也可能包含在“ ssCpuRawSystem(52)”计数器内。

一些帮助将不胜感激。似乎到处都在说 % 已被弃用,因为它可以派生,但我还没有找到任何显示执行此派生的官方标准方法的地方。

第二个组成部分是这些“滴答声”似乎是累积的,而不是在某个时间段内。如何在一段时间内对值进行采样?

我想要的最终信息是:“当前”(过去 1-60 秒可能就足够了)的用户、系统、空闲、好(理想情况下是窃取,尽管似乎没有标准 MIB)的百分比,偏好较小的时间跨度)。

monitoring central-processing-unit nagios snmp

7
推荐指数
1
解决办法
2万
查看次数

如何将所有 Cacti 设备从 5 分钟轮询迁移到 1 分钟轮询?

我刚刚接管了一个 Cacti 服务器,并且正在从 5 分钟轮询到 1 分钟轮询做噩梦。

到目前为止,我已经将数据模板与Step(从300降到60)和Heartbeat(从600降到120)一起更改,并且我还将cron作业从*/5更改为*/1,最后,在设置下,我将轮询间隔更改为每分钟,将 cron 间隔更改为每分钟。

然而,这样做似乎会导致服务器负载过大,同时许多错误被添加到 /var/log/cacti/poller.log (?) 关于无效 SQL 语句和 RRD 的各种其他问题。

根据我的理解,编辑数据模板不会影响现有的 RRD,它只是设置将在未来创建的 RRD - 因此,我认为错误是因为默认情况下 RRD 文件只有 5 分钟的步骤在我需要的 60 个中。

最重要的是现有数据不会丢失,但是,如果无法合并,可以将其存档 - 到目前为止,我已尝试创建第二个仙人掌服务器以迁移现有数据(然后将它们全部设置为禁用) ,但是,这似乎效果不佳,因为我还没有找到批量导入现有 RRD 的好方法。

在过去的两周里,我一直在做这件事,但没有走得太远,我需要一些专家的帮助!我只是想知道是否有人以前这样做过并且可以提供任何建议/为了迁移我应该做什么?

monitoring rrdtool cacti

7
推荐指数
1
解决办法
1万
查看次数