我正在研究集中管理 20 个 Linux 服务器和 100 个 Linux 工作站的最熟练方法。
我不确定是否有一些管理和监控套件可以从一个站点完成日常管理工作和故障排除。
我有一个站点,有四十个工作站和大约十五个计算节点。
我通过以下方式管理工作站:
我以几乎相同的方式管理计算群,除了:
它并不完美,但它使这个站点继续运行。
(哦,我要提一下,这个站点没有任何现场专职IT人员,是PT和点播。上面的监控系统通常可以在计算机遇险时通知您。)
您的“日常管理”任务是什么?你运行什么发行版?
Logwatch 和 cron 电子邮件对于帮助您了解服务器上的最新情况大有帮助。除此之外,Puppet之类的产品可以帮助实现自动化操作,例如推出软件包、更改防火墙配置等。还有Parallel SSH之类的工具可以帮助您同时在一堆服务器上手动执行某些命令行。
如果您正在运行基于 debian 的解决方案,则有一个名为 apticron 的软件包,它将通过 cron 定期运行,并可以通过电子邮件向您发送一份报告,说明何时有软件包需要更新。我知道 Redhat/CentOS 类型的发行版有一个类似的程序,但目前我不知道这个名字。
就监控而言,您可以检查大量的软件包。我相当偏爱 Nagios,但是有许多免费和付费系统可以做得很好。但是,如果不提供更多详细信息,我们很难针对您的具体情况提出好的建议。