我正在考虑重新布线我们的服务器机房,使其更美观、更有条理且更易于故障排除。
现在我们目前有 4 个 HP 机架(现在不知道型号)。我们没有建筑物 UPS,因此我们将 UPS 放置在每个机架(10K、5K)中。这造成了很多混乱,但不幸的是我没有其他方法可以做到这一点。我们也没有活动地板。
我的一个机架包含防火墙、网络交换机和光纤交换机。目前,我们正在将电缆从主交换机连接到其他机架中的所有服务器/SAN(直接)。其他机架主要包含服务器,其中一个也有 SAN。
以下是我的问题:
如果您认为我遗漏了任何问题,请告诉我!提前致谢!
经过几个月的疏忽、电子邮件火焰和管理斗争,我们当前的系统管理员被解雇并将“服务器凭据”交给我。此类凭据仅包含 root 密码,仅此而已:没有程序、没有文档、没有提示,什么也没有。
我的问题是:假设他留下了诱杀装置,我如何在尽可能少的停机时间的情况下优雅地接管服务器?
以下是详细信息:
假设两台服务器都已打补丁并且是最新的,所以除非有充分的理由(即可以向高层管理人员解释),否则我宁愿不尝试入侵。
生产服务器托管了一些网站(标准的 apache-php-mysql)、一个 LDAP 服务器、一个 ZIMBRA 电子邮件套件/服务器,据我所知还有一些正在运行的 vmware 工作站。不知道里面发生了什么。一个可能是 LDAP 主机,但这是一个疯狂的猜测。
内部服务器有一个内部 wiki/cms、一个从生产服务器复制凭据的 LDAP 从属服务器、更多的 vmware 工作站和正在运行的备份。
我可以去服务器场的管理员,指向服务器,告诉他们“请sudo
关闭该服务器”,以单用户模式登录并按照我的方式进行。内部服务器也一样。尽管如此,这将意味着停机,高层管理人员不高兴,老系统管理员回击我说'看到了吗?你不能做我的工作和其他麻烦事,最重要的是我可能不得不失去几周的无薪时间。
在频谱的另一端,我可以只以 root 身份登录并通过服务器来尝试了解正在发生的事情。所有引发意外的风险都被抛在脑后。
我正在寻找中间的解决方案:尝试让一切保持原样运行,同时了解正在发生的事情和方式,最重要的是避免触发任何遗留的陷阱。
你有什么建议?
到目前为止,我考虑过使用内部服务器“练习”,断开网络连接,使用 live cd 重新启动,将根文件系统转储到 USB 驱动器中,然后将其加载到断开连接的隔离虚拟机上,以了解以前的系统管理员方式思考(a-la '了解你的敌人')。可以在生产服务器上实现同样的壮举,但完整的转储会引起人们的注意。也许我可以以 root 用户身份登录,检查 crontab,检查 .profile 中启动的任何命令,转储 lastlog,以及任何想到的。
这就是我在这里的原因。任何提示,无论多么小,都将不胜感激。
时间也是一个问题:可能会在几个小时或几周内触发。感觉就像那些糟糕的好莱坞电影之一,不是吗?
我正在寻找有关厨师食谱版本管理的想法。我知道您在环境中固定了特定版本,但我不确定如何去做。
我们使用librarian-chef 将第3 方社区书籍安装到cookbooks 文件夹中。我们从不碰这些书,只是不时更新到最新版本。
我们还提供自定义站点特定食谱,其中包含社区食谱 ( include_recipe
)。
理论上我们可以指定自定义书籍所依赖的社区书籍的特定版本,然后在环境配置中设置我们的食谱版本,但问题是这些社区书籍可能依赖于其他一些没有指定版本的书籍。并且这种深度嵌套的依赖可能会持续下去。
因此,无法保证当您将食谱上传到厨师服务器时,它不会破坏产品,因为依赖的食谱也可能会发生变化。
目前我能看到的唯一解决方案是指定我们在环境配置中使用的每个食谱版本,包括社区和自定义版本。但后来我必须仔细阅读每本食谱并找出那些版本。
我们还不时进行图书管理员-厨师更新,我想可能会很难追踪更改的版本,并且在时间到来时不要忘记更新环境中的版本。
请分享您的经验和最佳实践。我相信它对其他人非常有用。
我运行一个中型 Nagios 服务器。它目前监控大约 40 台服务器和 180 项服务,并且每天都在增长。
我从以非常深奥的方式配置的旧 Nagios 设置迁移,迫使我从头开始重新配置所有内容。
现在服务器正在运行并且可以满足我们大部分需要,我正在考虑让它更具可扩展性;当前每个主机/etc/nagios/hosts/
在 . 这显然不是最优的,但也没有将我的所有配置混淆到数百个不同的文件中。
所以我的问题是:对于任何有经验的 Nagios 管理员来说,在不使配置过于复杂的情况下使用主机组/服务组的最佳方法是什么?
graceful
在生产服务器上重新启动 Apache是否安全?正常重启会导致什么影响以及会产生什么影响(如果有)?会不会有任何不利影响(例如停机,即使是很短的时间)?
我已经考虑了以下资源,但目前还不清楚对用户的影响是什么:
“回到过去”,我们总是将我们的操作系统驱动器(在 Windows 中)与我们的数据驱动器分开。在 Linux 世界中,虽然我对它不太熟悉,但我知道智慧要求在最佳实践配置中定义和使用更多卷。
既然服务器存储很可能位于 SAN(其中磁盘资源由许多单独的操作系统和应用程序共享)上,那么在卷级别隔离操作系统和数据分区真的更重要吗?
你怎么看?
这应该是社区维基。我正在尝试列出我们应该定期执行的所有系统管理员任务的列表,因为我相信我们在公司做得还不够。这里的态度是修复问题不方便,但我们没有时间做预防性维护或持续改进。
日常的:
每周:
每月:
年度的:
我目前管理着 6 台 Cisco ASA 设备(2 对 5510 和 1 对 5550)。它们都工作得很好并且很稳定,所以这更像是一个最佳实践建议问题,而不是“天哪,它坏了帮我修复它”。
我的网络被分成多个 VLAN。几乎每个服务角色都有自己的 VLAN,因此 DB 服务器将有自己的 VLAN、APP 服务器、Cassandra 节点。
流量在仅允许特定,拒绝休息的基础上进行管理(因此默认策略是丢弃所有流量)。我通过为每个网络接口创建两个 ACL 来做到这一点,例如:
这一切都非常紧凑并且按预期工作,但是我想知道这是否是最好的方法? 目前,我已经拥有超过 30 个 VLAN,我必须说在某些时候管理这些 VLAN 变得有些混乱。
可能像公共/共享 ACL 之类的东西在这里会有所帮助,我可以从其他 ACL 继承,但 AFAIK 没有这样的东西......
任何建议非常感谢。
我们使用共享域帐户在公司中运行多项服务。不幸的是,此帐户的凭据分布广泛,并且经常用于服务和非服务目的。这导致了一种情况,由于此共享帐户被锁定,服务可能会暂时关闭。
显然,这种情况需要改变。计划是将服务更改为在新帐户下运行,但我认为这还不够,因为该帐户受相同的锁定策略约束。
我的问题是:我们是否应该以不同于其他域帐户的方式设置服务帐户,如果我们这样做了,我们将如何管理这些帐户。请记住,我们运行的是 2003 域,升级域控制器在短期内不是可行的解决方案。
题
是否有一个“正确” /标准来区分的方式Service Accounts
从User Accounts
公元?
更多信息
在某些情况下,我们的系统在 AD 凭据下运行(即在服务帐户下)。这些服务帐户的创建方式与用户帐户完全相同;唯一的区别是名称和描述。已经做了一些事情来区分两种帐户类型(例如帐户所在的 OU,是否启用了“密码永不过期”,如果描述中包含“服务帐户”),但没有一个规则可以可以应用于一切以清楚地区分两者。
展望未来,我们希望改进这个/春季清洁的东西,以明确区分。为此,我们可能会同时使用 OU 和描述字段。
在这样做之前,虽然我想检查一下;是应该这样做的一种方式;即专门用于此目的的某些属性(可能是一个与 Person 不同的 objectCategory 值?),或公认的标准命名约定,或者每个公司是否都有自己的方法?
best-practices ×10
networking ×2
security ×2
apache-2.2 ×1
cable ×1
chef ×1
cisco ×1
cisco-asa ×1
dependencies ×1
ldap ×1
linux ×1
maintenance ×1
nagios ×1
performance ×1
ubuntu ×1
versioning ×1
web-server ×1
windows ×1
wiring ×1