标签: monitoring

驯服现有网络

我最近作为唯一的 IT 人员加入了一家公司,我正在努力了解我们拥有哪些软件和硬件以及如何部署它们。考虑到我有限的时间和预算,哪些工具或流程可以有效地发现和管理这些信息?我正在照顾的事情包括:

  • 大约 35 台台式机,包括 PC 和 Mac。
  • Microsoft 服务器包括 AD、Exchange、SQL 和 IIS 服务器。
  • 有线、无线和 VPN 网络。

我的目标是:

  • 发现并改进任何问题。
  • 确保我们获得了正确的许可。
  • 记录足以让下一个人的工作更轻松。

monitoring

10
推荐指数
1
解决办法
454
查看次数

监控互联网带宽

我们在我们的网络中安装了 IPCop 防火墙/代理,虽然我可以使用 iftop 来查看客户端如何使用 Internet,但是否可以使用诸如 ntop 之类的东西从代理外部对其进行监视?

请注意,我对 LAN 流量不感兴趣,只对进出 Internet 的流量感兴趣。

bandwidth monitoring

10
推荐指数
2
解决办法
1557
查看次数

*您*如何跟踪和记录日常维护?

遇到服务器故障,你们使用什么软件或系统来提醒您进行日常维护?您如何核对清单并记录您应该检查的各种项目?你有内部流程文件吗?您是否每周都有 cron 邮件提醒您检查系统日志?

另外,您是否在一个团队中工作进行系统维护,如果是,您如何协调谁将进行哪些维护?

如果您使用错误/问题跟踪系统来输入任务,您是否有一个 cron 作业输入重复性任务?

maintenance monitoring

10
推荐指数
2
解决办法
3379
查看次数

聪明的nagios警报方法

我们使用 Nagios,当有事情发生时我会收到短信。许多其他系统管理员也会收到短信。但是,人们是否有其他聪明/酷炫的方式收到 nagios 警报?

monitoring nagios alerts

9
推荐指数
2
解决办法
2930
查看次数

用于检查端口是否打开的 Ping 等效项

如何检查端口是否始终处于活动状态?例如,我可以使用

ping 192.168.1.1 -t > results.txt
Run Code Online (Sandbox Code Playgroud)

这将持续 ping 192.168.1.1,以便我可以监控它。
是否有我可以使用的等效工具或命令?

目前我使用 telnet 但有时主机会断开它。我需要一个 Windows 解决方案。

monitoring ping network-monitoring uptime

9
推荐指数
3
解决办法
4万
查看次数

监控每个用户的 SSH 流量

我们有一个每 12 小时运行一次的备份应用程序。

多台服务器、台式机和笔记本电脑连接到一个 EC2 实例,并使用自己的登录凭据通过 SFTP 推送备份。

如果他们需要恢复文件,他们可以通过简单的 SFTP 客户端浏览文件并恢复他们的文件。这在过去 8 个月中一直运行良好。

我想知道每个用户每月通过 SSH 传输多少数据。我不需要过去 8 个月的日志,但是从现在开始记录它的东西会很棒。

有什么可以让我这样做吗?

操作系统: Ubuntu 10.10

bandwidth monitoring ssh

9
推荐指数
1
解决办法
3077
查看次数

Nagios 远程监控:NRPE Vs。SSH

我们使用 Nagios 来监控相当多(~130)台服务器。我们监控每台服务器上的 CPU、磁盘、RAM 和其他一些东西。我一直使用 SSH 来运行远程命令,纯粹是因为它在远程服务器上几乎不需要额外的配置,只需安装 nagios-plugins,创建 nagios 用户并添加 SSH 密钥,所有这些我都自动化了一个 shell 脚本。我从未真正考虑过在 NRPE 上使用 SSH 对性能的影响。

我不太担心 Nagios 服务器上的负载(它的功能可能超出了规格,CPU 从未超过 10%),但我们每 30 秒运行一次远程检查,每个服务器有 5 个不同的检查执行。我认为 SSH 每次检查都需要更多资源,但有很大的不同吗?(即足以保证切换到 NRPE 的差异)。

如果有帮助,我们会监控物理服务器(通常具有 8、12 或 16 个物理核心)和 Amazon EC2 中/大型实例的组合。

monitoring performance nagios nrpe

9
推荐指数
2
解决办法
1万
查看次数

有人可以解释默认 munin 图的“用例”吗?

安装 munin 时,它会激活一组默认插件(至少在 ubuntu 上)。或者,您可以简单地运行munin-node-configure以确定您的系统支持哪些插件。大多数这些插件绘制直接的数据。我的问题是无法解释的数据(也......也许对一些)的性质,但什么是你在这些图中寻找什么?

安装 munin 并查看精美图表很容易。但是拥有图表而无法“阅读”它们会使它们完全无用。

我将列出在我的系统上默认启用的标准插件。所以这将是一个很长的清单。为了完整起见,我还将列出我认为可以理解的插件,并简要说明我认为它的用途。如果我对其中任何一个有错误,请纠正。

所以让我把这个问题分成三个部分:

  • 我什至不理解数据的插件
  • 我了解数据但不知道应该注意什么的插件
  • 我认为可以理解的插件

我什至不理解数据的插件

这些可能包含不一定只针对穆宁的问题。不理解数据通常意味着在操作系统/硬件的基础知识方面存在差距.... ;) 请随意回答“giyf”。

这些是我只能猜测发生了什么的插件......我几乎不想看这些“猜测”......

  • 每个设备的磁盘 IO (IOs/秒)
    什么是 IO。我知道它代表输入/输出。但就目前而言。
  • 每个设备的磁盘延迟(平均 IO 等待)
    不知道“IO 等待”是什么......
  • IO 服务时间
    这是一个巨大的混乱,几乎不可能在图表中看到任何东西。

我了解数据但不知道应该注意什么的插件

  • IOStat(块/秒读/写)
    我想,这里要注意的是尖峰?这意味着该设备被大量使用?
  • 可用熵(字节)
    我认为这对随机数生成很重要吗?我为什么要画这个?到目前为止,该值一直接近恒定。
  • VMStat (running/I/O sleep processes)
    这个和“进程”图有什么区别?两者都显示运行/睡眠进程,而“进程”图似乎有更多细节。
  • 每个设备的磁盘吞吐量(字节/秒读/写)
    这和“IOStat”图有什么区别?
  • inode 表用法
    我应该在这个图中寻找什么?

我认为可以理解的插件

我会在这里猜测一些事情......如果我错了,请纠正我。

  • 磁盘使用百分比(百分比)
    已使用/剩余多少磁盘空间。由于接近 100%,您应该考虑清理或扩展分区。这对于根分区非常重要。
  • 防火墙吞吐量(数据包/秒)
    通过防火墙的数据包数量。如果这种情况持续较长时间,则可能是 DOS 攻击的迹象(或者我们只是收到了一个大文件)。它还可以让您了解防火墙性能。如果它趋于平稳并且您需要更多“功率”,则应考虑负载平衡。如果它趋于平稳并看到与 CPU 负载的相关性,则也可能意味着您的硬件速度不够快。与磁盘使用情况的相关性可能表明您的 FW 配置中有过多的 LOG 目标。
  • eth0 错误(数据包输入/输出)
    网络错误。如果此值增加,则可能是硬件故障的迹象。
  • eth0 流量(比特/秒输入/输出)
    原始网络流量。这应该与防火墙吞吐量相关。
  • 线程数
    不断增加的值可能表示进程没有正确关闭线程。调查!
  • 处理 …

linux monitoring munin

9
推荐指数
1
解决办法
3564
查看次数

API 管理解决方案

我目前正在构建一个 API 并且正在寻找一种工具来允许我监视(在 GUI 中)和速率限制使用情况。我遇到了一些企业解决方案,包括:

Apigee 企业计划正是我正在寻找的,但计划的起价为 3000 美元/月,超出了我的价格范围。其他解决方案要么太贵,要么不提供我正在寻找的解决方案。

这让我看到了一些开源选项,包括:

清漆似乎是一个相当完整的解决方案;但是,我需要构建一个 GUI 来可视化数据。

我的最后一个选择是使用 EventMachine 和 ruby​​ 从头开始​​构建解决方案。

有什么建议吗?

monitoring nginx proxy ruby-on-rails

9
推荐指数
1
解决办法
1259
查看次数

使用 Nagios 检查服务不可用是否合理?

假设我有一个带有私有接口和公共接口的服务器。公共可能有 HTTP(S) 服务器之类的东西,私有可能有 MySQL 和 SSH。

显然 Nagios 可用于检查服务是否在其各自的接口上运行。但是,构建明确测试 MySQL 和 SSH 端口在公共接口上打开的检查是个好主意吗?这个想法是捕捉无意的错误配置,这些错误配置已经打开了应该是私有的服务,并适当地发出警报。

我的一部分认为这不会很好地扩展 - 想象一下有一个 iptables DROP 规则,例如,检查必须等到超过检查超时才能完成并继续。但是该超时时间必须足够长,以便能够将被阻止的服务与真正陷入困境的开放服务区分开来。

这是一个实用的想法吗?Nagios 是正确的工具吗?我什至没有研究过否定 TCP 检查插件结果的可行性,但我确定这是可行的......

monitoring firewall nagios service private-ip

9
推荐指数
1
解决办法
754
查看次数