最好的系统管理员WTF?

Mas*_*imo 20 untagged

你肯定用自己的眼睛看到它(或即将)迟早:那个可怕的项目/系统/情况下得到的东西SO搞砸了,你就不能相信它居然跑到就像它。

管理不善?预算错误?误解?只是愚蠢,无知?说出您的原因,它确实发生了(并且不断发生,可悲的是;请参阅此处)。

在这里描述它,是为了娱乐(虽然有点愤世嫉俗)和学习(希望如此)。

一些规则:

  • 不是随机(即使是完全毁灭性的)管理错误的地方,所以请避免“啊,我打错了那个 rm -r”或“天哪,我只是在我上次好的备份上复制了损坏的数据库”(去过那里,做到了) ; 那些东西在这里更好。这是关于“什么样的药物完全受谁设计/实施这个系统的影响?”。
  • 每个帖子一个 WTF,所以他们可以得到正确的评论。
  • 请发布您实际目睹的内容:-)
  • 如果是你做的,它仍然有资格:-)

我很快就会添加一些材料,请随意添加您自己的;请做:-)

Mas*_*imo 24

我接到了一家我以前从未听说过的公司的电话,该公司的任务是为客户实施 Exchange 2003 邮件服务器,但完全不知道如何去做;没什么太奇怪的,对吧?我是一名自由顾问,所以我完全可以做你不知道如何为你做的工作(并为此赚钱)。

所以我去了客户现场,发现了一些很奇怪的事情:网络中的每一个服务器都是一个域控制器;全部 15 个左右。

然后我发现了更奇怪的事情:没有一个人能正确地与其他人进行复制,Active Directory 的整体行为只能被描述为“不稳定”,用户遇到了您可以想象的任何网络问题,而 Exchange 只是拒绝安装未知 -对人类的错误。

所以我查看了服务器上的网络配置,我看到……它正在使用 ISP 的公共 DNS 服务器。然后我查看了另一台服务器……结果还是一样。然后我看 DC ......同样的事情。然后我问了......并得到了官方确认:网络上的每一台计算机(大约 1500 台)都在使用 ISP 的 DNS,而不是合法的域控制器。

我继续解释 DNS对于正确的 Active Directory 操作非常关键,并且能够重建背景故事:

  • 有人最初正确设置了 AD 域,使用 DC 作为每台计算机的 DNS 服务器。
  • 他/她/它对转发器和/或防火墙配置一无所知,因此计算机无法解析 Internet 公共名称。
  • 于是就有了在计算机上使用 ISP 的 DNS 服务器的想法;他们在每个人身上配置了它。
  • 他们开始有很多“找不到域控制器”的错误(谁会猜到?)。
  • 他们认为问题是由于没有足够的 DC 造成的,因此他们继续将每台服务器提升到该角色。
  • 不用说,这只会让事情变得更糟,因为那些新的 DC 也使用了错误的 DNS,因此它们也无法复制。
  • 这持续了几个月,他们只是“习惯了”网络完全不可靠。
  • 最重要的是,他们尝试启动 Exchange 设置,但不幸崩溃;直到那时他们才决定打电话给一些外部顾问,直到他们完全不知道他们的网络设置是否完全错误。

  • 我喜欢那个东西。“我们无法再登录,因为服务器不可靠,所以现在每个人都有本地帐户”。嗯。 (3认同)
  • 这是临时修复悲剧的一个典型例子。 (3认同)

Sir*_*tan 23

曾几何时,我有一个客户是一家拥有电子健康记录的小型企业(10 人)。(不是医生)。我注意到有一天备份失败了。经测试,磁带机根本无法工作。我向业主提到了这一点,他说他很清楚驱动器坏了,但是更换起来太贵了。

当然 - 那不是很WTF。

WTF 是他让他的工作人员每天旋转磁带,把它带到一个保险箱,以及在它死后 6-9 个月的所有爵士乐。

“不要告诉工作人员,他们可能会担心”

  • http://thedailywtf.com/Contact.aspx (7认同)
  • 哦。我的。善良。 (6认同)
  • 不要浪费每个人的时间来更换磁带和存储它浪费更多的钱,只是修理该死的驱动器? (3认同)

Mas*_*imo 17

我在一家大型政府机构(意大利政府的主要机构之一)担任系统管理员,并且已经管理他们的数据中心几个月了。一天晚上,我的电话响了,我的老板告诉我发生了一件非常糟糕的事情:完全停电

好的,我们有 UPS,对吗?

是的,但它们不会持续很长时间,所以最好去那里关闭一切,直到电力恢复。

我去那里,穿过黑暗的走廊,到达服务器机房……迎接我的是只能用纯粹的地狱来形容的东西。字面上地。房间太热了,你可以在里面烤蛋糕。UPS 电源还可以,但一半的服务器已经因过热而关闭,其余的服务器都在痛苦地尖叫。

原因?

服务器使用 UPS 电源...空调不是

  • 走进一个 100 度的房间,里面充满了琥珀色和红色闪烁的灯光,有很多哔哔声警报和服务器风扇以 100% 的速度尖叫,没有什么感觉很像。 (15认同)
  • 确实,我们现在有一种合理的方法来模拟地球上的地狱……炎热、哀嚎、黑暗,你想尽快离开,但不能。 (3认同)
  • 可悲的是,我注意到很多大公司都是这样设置的。有几次,当 Rackspace 使用 Generator 电源时,服务器报告的温度会在几分钟内从 70 升至 100+。 (2认同)

l0c*_*b0x 10

Microsoft 支持工程师对报告问题的电子邮件回复:

“就我对你的问题的看法而言,我 只有一个词:怪异。”

金子!

  • 至少你得到了回应。不是每个人都这样。 (3认同)
  • “*现实从不怪异。称现实为“怪异”会让你陷入一个已经被证明是错误的观点。概率理论告诉我们,惊喜是对糟糕假设的衡量;一个好的模型让现实看起来正常,而不是奇怪;[..]但它也会阻碍你继续思考 多么奇怪!在怀疑上花费情感能量浪费了你可以用来更新的时间。它反复把你扔回旧的错误观点的框架。它助长了你对现实的义愤填膺敢反驳你。*” - http://lesswrong.com/lw/hs/think_like_reality/ (2认同)

eww*_*ite 9

HP ProLiant ML370 G3 风扇故障... 该型号主板上的风扇传感器在 5 年后趋于坏掉。未检测到错误的风扇组合时,服务器无法启动。我不得不引导客户使用 shop-vac 快速启动机器(让风扇在启动时旋转),这就是他们保持服务器运行的方式,直到我带着新系统到达。

在此处输入图片说明 在此处输入图片说明


小智 8

我曾经是 Dac-Easy 会计的会计软件顾问。有一次,我被叫到一家当地企业的总办公室,会计师告诉我,如果我不能解决这个项目每个周末都充满会计错误的原因,他们将不得不另找一份申请和顾问。通过查看管理日志文件,我发现所有条目通常都是在周五或周六晚上进行的。然后我发现业主的妻子正在使用PC Anywhere从家里登录会计系统计算机,并在喝了几杯酒后试图用她的支票簿来平衡账户。一旦数字看起来不错,她就会注销。

  • 多少杯酒直到数字看起来不错?相信有很多人想知道。 (5认同)
  • 我可以保证那是你的错,该死的。 (2认同)

小智 7

当我听到里面有东西嘎嘎作响时,我拿起了从母公司办公室收到的一台电脑。当我打开箱子时,我发现里面装满了 1/2 的磨砂迷你小麦。我认为老鼠住在里面或使用食物储藏室。可能的切入点是外壳和 DIN 键盘插孔之间的间隙。

不完全是你所要求的,而是一个明确的WTF。

  • 几年前我在一家种子公司工作。一年秋天,种子实验室里的机器做着最奇怪的事情。在外面的 4 个盒子中,有 2 个在盒子里有老鼠窝。鼠标小便对主板不好。在那之后,我们都更好地将卡槽盖放回原处。 (3认同)

Mas*_*imo 7

另一个客户,另一个恐怖故事。

在主要帖子中,我谈到了错误地用要替换的损坏数据库覆盖了一个好的备份;它发生了:-(

因此需要从备份中恢复。幸运的是,实际上WAS备份有:它每天做,以连接到它一个非常大的磁带库中央备份服务器上; 这台服务器管理整个公司的备份,它真的很贵,而且上面安装了一个真正的备份软件。

到现在为止还挺好。我们查找备份作业,加载正确的磁带,开始恢复操作,加载磁带,开始恢复……然后什么也没有发生。

我们再试一次,有些事。

我们卸载,重新加载,重新启动,尝试恢复以前的备份......没有任何变化。

我们假设正在进行一些长时间的操作,并将其放置一整夜......第二天,仍然没有任何变化。

好的,是时候联系 Real Backup Software 供应商的支持人员了...但它无法完成,我们在星期天。我们尝试查找供应商的支持站点,但是需要一个特殊的访问代码,而且只有一位经理拥有它……同一位经理会在周一上班时发现系统仍然停机时感到非常沮丧。

又是痛苦的一天,我发现这个错误是众所周知的,并且已经由供应商补丁修复,(显然)没有人愿意申请。所以我去应用它......但它无法完成:除非供应商确认可以安全地应用补丁,否则管理层不想冒险破坏任何东西;备份服务器无法恢复任何内容的事实对他们来说显然不够“破坏”。

仅在四天后,各种支持电话和供应商派一名支持工程师到现场,我们终于能够应用补丁并恢复备份;备份服务器没有EVER能够做到的恢复,但没有人测试过它,所以没有人注意到。


gol*_*udo 6

终端仿真的乐趣和利润

我使用的是一个较旧的系统——本质上是一堆连接到 Unix 机器的文本终端,还有一些 Windows 计算机只是为了使事情复杂化。

一些基本的背景事实

  • 主要软件应用程序使用它自己的扩展 termcap 文件。系统范围的 termcap 和 terminfo 被忽略。
  • 主软件应用程序允许根据环境变量选择各种键盘映射。
  • 所有文本终端都有可编程键盘。
  • Windows PC 使用专有客户端软件进行连接,没有主要软件应用程序的内置支持。
  • 专有客户端软件允许在加载时选择各种键盘映射。
  • 只有一半的员工使用标准 QWERTY 布局。
  • 在该系统上工作过的系统管理员中,至少有一个,可能还有更多,缺乏对终端仿真的正确理解。

我想你可以看到我要去哪里。

在为 terminfo 和 termcap 文件添加适当的终端支持方面曾有过半心半意的尝试,但这些只是部分功能。主系统应用程序使用的专有 termcap 文件可以工作,但它大多无关紧要,因为无论如何 $TERM 从未正确设置。

登录时,每个用户必须基本上选择他们登录的位置以及他们想要使用的键盘布局——不涉及自动检测。这会将 $TERM 设置为 ANSI,无论客户端正在使用哪个终端,并设置环境变量,以便主软件应用程序适当地重新映射一些键。

如果人们在文本终端上使用嵌入式键盘布局,则会运行脚本以将某些键重新编程为嵌入式布局(物理打印在键盘本身上),但不是全部。在 Windows PC 上,加载客户端键映射以将大多数功能键重新映射到 ANSI。不能全部重新映射,否则其他一些键将停止工作。

从任何终端登录其他任何内容都是失败的练习,只能合理地直接在服务器本身上完成。由于一切正常,因此很难证明修复它所需的时间和精力是合理的。但是添加比我们现在坚持使用的 20 年前的文本终端更新的任何东西本质上需要重写整个系统。

每次看到心里都会有点想哭。


小智 6

我知道有人决定通过将所有 .exe 文件放在一个文件夹中来重新组织计算机上的文件。

  • 啊,对,就是那个!非常类似于“我删除了 C:\Windows 中的所有内容,这完全没用,占用了太多空间”...... (4认同)
  • 我对运行 Deep Freeze 冰点的 Windows 系统这样做是为了获得一些宣泄的感觉。 (3认同)

Mas*_*imo 6

网络与〜60(第六)的PC。

一个安全狂热的老板。

一些具有 VLAN 功能的新交换机。

一个“网络重组计划”,涉及约 20(二十个)VLAN。

多亏了一些未知的上层力量,我在这一切真正开始之前就离开了……


Lau*_*mas 5

我们给了我们的一位 Unix 管理员一个 Windows 盒子。这是在我们将 Windows 管理员 Linux 盒子交给管理员以试图增加我们对不同操作系统的熟悉程度之后不久。作为一名 Windows 管理员,我试图不搞砸我的 Linux 机器,我向 Unix 团队提出了很多问题。我希望这是练习的目标。在一次关于确保我正确调整所有卷的大小而不是将所有内容放在一个卷或单个分区上的严厉讲座之后,我继续构建了一个完全合适的盒子,两年后仍在生产中运行。

当那个给我讲过不同卷而不是构建东西以使整个磁盘可能使操作系统崩溃的东西的 Unix 家伙构建他的 Windows 机器时,他把所有东西都放在 C: 上。当我说“我不能用我们的任何政策来支持它,当这些日志填满你的盒子时,你的盒子就会崩溃。” 他说:“好吧,我认为是 Windows,C: 上的所有内容都有意义。” 他根本没有做另一个分区。我真的很困惑。绝对是WTF,你在想什么。显然,他没有想到无论操作系统如何,一些最佳实践都是相同的。

  • 可以说,在 Windows 世界中,“C: 上的一切”通常是有意义的。正如 Unixy 类型所理解的 / 作为 c:。“正确”的 Unixy 修复方法是制作额外的分区并将它们安装为文件夹,而不是驱动器。所以 Partition 1 = / (C:) Partition 2 = /home (c:\documents and settings\\) Partition 3 for c:\windows Partition 4 for c:\program files Partition 5 for shared data (如果它是一个文件服务器) (10认同)

Sir*_*tan 5

马西莫的回复让我想起了另一个WTF……

一个小办公室有 Windows 2003 服务器和 Exchange、赛门铁克 AV 等。该公司通常使用我们来完成他们所有的 IT 工作。我们将它们安装在统一的戴尔 Optiplex 平台上,这家伙决定用百思买出售的“很棒的机器”替换其中的 3 台。

无论如何 - 他们以某种方式设法将其加入域。

第一次调用:

我们找不到前景。机器附带了 Word (Microsoft Works),那么其他的一切呢。

第二次调用:

我们如何使用网络杀毒软件?

这是wtf。我去了现场,他们的 7 台机器已经配置为 Symantec Antivirus SERVERS,而不是安装客户端。显然这位先生不喜欢我们锁定了客户端的设置,并决定“重新安装”客户端,以便在扫描时进行更改。显然,我们遗漏的第一张 Symantec AV 光盘以某种方式说服他安装“服务器”,而不是客户端。

  • 安装服务器是默认设置,因为您不需要从 CD 安装客户端。当您安装服务器时,它会发布一个共享,可用于安装客户端,然后自动知道要连接到哪个服务器等等。您应该使用这些安装文件,或者从服务器推送安装,而不是将 CD 粘贴在每台客户端计算机中。 (5认同)

LRE*_*LRE 5

一个客户打电话给我帮助构建一些服务器。在构建过程中,我被告知这些是机架底部两个的替换服务器。我认为机架位置相关很奇怪,并问为什么。原来服务器机房在穿过它中间的水管爆裂后被淹。

那么你问的服务器机房中间的水管是做什么的?嗯,女士浴室就在隔壁,服务器机房很方便。有什么更好的地方可以将主要饲料放入浴室?

  • 让我想起了这个服务器机房:http://thedailywtf.com/Articles/The-Stalled-Server-Room.aspx (4认同)

eww*_*ite 5

哦,这是一个简单的...

我为一家位于肯塔基州农村仓库的公司安装了 Linux 系统。该系统是组织的会计/库存应用程序。我正在用新的 CentOS 4 服务器替换 1998 年时代的 SCO 服务器。结果,我预计在连接和客户端方面会出现最糟糕的情况。你知道,旧电脑、坏电缆等。我把新的交换机、电缆、瘦客户端等运到现场......

然而,我没想到布线“壁橱”会在浴室里!实际上,布线位于仓库浴室厕所正上方的吊顶上方的空间中。这包括 DSL 调制解调器、10 兆位HUB和用于电话的 66 块...

在此处输入图片说明 在此处输入图片说明