您每天如何管理 20 个或更多 Linux 服务器？

Question

我正在研究集中管理 20 个 Linux 服务器和 100 个 Linux 工作站的最熟练方法。

我不确定是否有一些管理和监控套件可以从一个站点完成日常管理工作和故障排除。

Answer 1

我有一个站点，有四十个工作站和大约十五个计算节点。

我通过以下方式管理工作站：

迫使工程师将所有数据存储在 NFS 网络上，而不是本地
不让任何工程师以任何理由在任何工作站上扎根
将所有系统 syslog 发送到中央 syslog-ng 主机，并定期进行日志解析（通常每天一次，但有时甚至每小时一次）
使用 nagios 监视上/下
有一个可重复的 kickstart 环境——经验法则是如果问题不能在 30 分钟内解决，机器会重新启动（实际上，我们实际上kickstart 比那个快得多，因为在这种设置中很少有 30 分钟的故障排除我们可以做），如果 kickstart 失败，我们开始交换硬件

我以几乎相同的方式管理计算群，除了：

它并不完美，但它使这个站点继续运行。

（哦，我要提一下，这个站点没有任何现场专职IT人员，是PT和点播。上面的监控系统通常可以在计算机遇险时通知您。）

Answer 2

您的“日常管理”任务是什么？你运行什么发行版？

Logwatch 和 cron 电子邮件对于帮助您了解服务器上的最新情况大有帮助。除此之外，Puppet之类的产品可以帮助实现自动化操作，例如推出软件包、更改防火墙配置等。还有Parallel SSH之类的工具可以帮助您同时在一堆服务器上手动执行某些命令行。

如果您正在运行基于 debian 的解决方案，则有一个名为 apticron 的软件包，它将通过 cron 定期运行，并可以通过电子邮件向您发送一份报告，说明何时有软件包需要更新。我知道 Redhat/CentOS 类型的发行版有一个类似的程序，但目前我不知道这个名字。

就监控而言，您可以检查大量的软件包。我相当偏爱 Nagios，但是有许多免费和付费系统可以做得很好。但是，如果不提供更多详细信息，我们很难针对您的具体情况提出好的建议。