我最近作为唯一的 IT 人员加入了一家公司,我正在努力了解我们拥有哪些软件和硬件以及如何部署它们。考虑到我有限的时间和预算,哪些工具或流程可以有效地发现和管理这些信息?我正在照顾的事情包括:
我的目标是:
我们在我们的网络中安装了 IPCop 防火墙/代理,虽然我可以使用 iftop 来查看客户端如何使用 Internet,但是否可以使用诸如 ntop 之类的东西从代理外部对其进行监视?
请注意,我对 LAN 流量不感兴趣,只对进出 Internet 的流量感兴趣。
遇到服务器故障,你们使用什么软件或系统来提醒您进行日常维护?您如何核对清单并记录您应该检查的各种项目?你有内部流程文件吗?您是否每周都有 cron 邮件提醒您检查系统日志?
另外,您是否在一个团队中工作进行系统维护,如果是,您如何协调谁将进行哪些维护?
如果您使用错误/问题跟踪系统来输入任务,您是否有一个 cron 作业输入重复性任务?
我们使用 Nagios,当有事情发生时我会收到短信。许多其他系统管理员也会收到短信。但是,人们是否有其他聪明/酷炫的方式收到 nagios 警报?
如何检查端口是否始终处于活动状态?例如,我可以使用
ping 192.168.1.1 -t > results.txt
Run Code Online (Sandbox Code Playgroud)
这将持续 ping 192.168.1.1,以便我可以监控它。
是否有我可以使用的等效工具或命令?
目前我使用 telnet 但有时主机会断开它。我需要一个 Windows 解决方案。
我们有一个每 12 小时运行一次的备份应用程序。
多台服务器、台式机和笔记本电脑连接到一个 EC2 实例,并使用自己的登录凭据通过 SFTP 推送备份。
如果他们需要恢复文件,他们可以通过简单的 SFTP 客户端浏览文件并恢复他们的文件。这在过去 8 个月中一直运行良好。
我想知道每个用户每月通过 SSH 传输多少数据。我不需要过去 8 个月的日志,但是从现在开始记录它的东西会很棒。
有什么可以让我这样做吗?
操作系统: Ubuntu 10.10
我们使用 Nagios 来监控相当多(~130)台服务器。我们监控每台服务器上的 CPU、磁盘、RAM 和其他一些东西。我一直使用 SSH 来运行远程命令,纯粹是因为它在远程服务器上几乎不需要额外的配置,只需安装 nagios-plugins,创建 nagios 用户并添加 SSH 密钥,所有这些我都自动化了一个 shell 脚本。我从未真正考虑过在 NRPE 上使用 SSH 对性能的影响。
我不太担心 Nagios 服务器上的负载(它的功能可能超出了规格,CPU 从未超过 10%),但我们每 30 秒运行一次远程检查,每个服务器有 5 个不同的检查执行。我认为 SSH 每次检查都需要更多资源,但有很大的不同吗?(即足以保证切换到 NRPE 的差异)。
如果有帮助,我们会监控物理服务器(通常具有 8、12 或 16 个物理核心)和 Amazon EC2 中/大型实例的组合。
安装 munin 时,它会激活一组默认插件(至少在 ubuntu 上)。或者,您可以简单地运行munin-node-configure以确定您的系统支持哪些插件。大多数这些插件绘制直接的数据。我的问题是无法解释的数据(也......也许对一些)的性质,但什么是你在这些图中寻找什么?
安装 munin 并查看精美图表很容易。但是拥有图表而无法“阅读”它们会使它们完全无用。
我将列出在我的系统上默认启用的标准插件。所以这将是一个很长的清单。为了完整起见,我还将列出我认为可以理解的插件,并简要说明我认为它的用途。如果我对其中任何一个有错误,请纠正。
所以让我把这个问题分成三个部分:
这些可能包含不一定只针对穆宁的问题。不理解数据通常意味着在操作系统/硬件的基础知识方面存在差距.... ;) 请随意回答“giyf”。
这些是我只能猜测发生了什么的插件......我几乎不想看这些“猜测”......
我会在这里猜测一些事情......如果我错了,请纠正我。
我目前正在构建一个 API 并且正在寻找一种工具来允许我监视(在 GUI 中)和速率限制使用情况。我遇到了一些企业解决方案,包括:
Apigee 企业计划正是我正在寻找的,但计划的起价为 3000 美元/月,超出了我的价格范围。其他解决方案要么太贵,要么不提供我正在寻找的解决方案。
这让我看到了一些开源选项,包括:
清漆似乎是一个相当完整的解决方案;但是,我需要构建一个 GUI 来可视化数据。
我的最后一个选择是使用 EventMachine 和 ruby 从头开始构建解决方案。
有什么建议吗?
假设我有一个带有私有接口和公共接口的服务器。公共可能有 HTTP(S) 服务器之类的东西,私有可能有 MySQL 和 SSH。
显然 Nagios 可用于检查服务是否在其各自的接口上运行。但是,构建明确测试 MySQL 和 SSH 端口未在公共接口上打开的检查是个好主意吗?这个想法是捕捉无意的错误配置,这些错误配置已经打开了应该是私有的服务,并适当地发出警报。
我的一部分认为这不会很好地扩展 - 想象一下有一个 iptables DROP 规则,例如,检查必须等到超过检查超时才能完成并继续。但是该超时时间必须足够长,以便能够将被阻止的服务与真正陷入困境的开放服务区分开来。
这是一个实用的想法吗?Nagios 是正确的工具吗?我什至没有研究过否定 TCP 检查插件结果的可行性,但我确定这是可行的......
monitoring ×10
nagios ×3
bandwidth ×2
alerts ×1
firewall ×1
linux ×1
maintenance ×1
munin ×1
nginx ×1
nrpe ×1
performance ×1
ping ×1
private-ip ×1
proxy ×1
service ×1
ssh ×1
uptime ×1