我正在寻找有关您遇到的系统管理员事故的有趣故事。删除CEO的电子邮件,格式化错误的硬盘等。
我将添加我自己的故事作为答案。
序言: 作为收购一家较小的开发公司的一部分,我们收购了一个新办公室。许多人被转移到总部,但“新”办公室将保留一个由 4-6 名开发人员和业务分析师以及其他管理人员组成的小团队。
作为该过程的一部分,我们最终得到了几台 2005 年末型号的 HP 服务器,这些服务器目前尚未使用,我认为它们可以用作 UAT 和源代码控制等的合适平台。等,直到明年调整预算并为虚拟化提供强有力的理由。
问题: 现有的系统管理员不喜欢技术,并且将大部分时间都花在工作安全上(即尽可能少做)他一直拒绝我的建议,即升级这些盒子将为开发团队提供最适合的基础架构下一年(我根据收到的反馈将这个值从 1-2 年修改了)。
系统管理员的立场是,我们最好在桌面上本地运行(UAT 等),而不是投入工作来执行升级。这让开发团队陷入困境,无法保证明年的虚拟化,因为系统管理员缺乏实施解决方案的经验和信心。
面对最小的、一次性的 < 1k$ 支出,这似乎是不合理的。对我来说,作为短期修复的理由似乎很明显,但我想确保我是有基础的,而不仅仅是迫切需要“修复”。
问题: 您计算硬件支出的成本/收益的一般流程是什么,您通常如何将这些信息提交给高层管理人员以证明支出的合理性?
此外,您将如何为虚拟化辩护?
而且,您认为系统管理员需要多少经验才能过渡到 VM 环境?
我有一台运行 Windows Server 2000 的 HP ProLiant DL380 G3,它每天早上 6 点到 730 点都在崩溃。这开始于我 6 天前更换故障硬盘时。我查看了与此问题无关的计划任务。以下是我在系统日志和一些转储文件中看到的唯一内容。如果每天在特定时间范围内发生这种情况,这是否是硬件问题?任何帮助是极大的赞赏。谢谢
上一次系统于 2/7/2012 上午 6:07:55 关闭是意外的。
系统信息代理:运行状况:服务器再次运行。服务器先前已被自动服务器恢复 (ASR) 功能关闭,并且刚刚再次运行。[SNMP 陷阱:CPQHLTH.MIB 中的 6025]
错误检查 7A、{3、c0000005、3400028、0}
可能是由于:memory_corruption (nt!MiMakeSystemAddressValidPfn+42)
0: kd> !analyze -v
KERNEL_DATA_INPAGE_ERROR (7a) 无法读入请求的内核数据页。通常由页面文件中的坏块或磁盘控制器错误引起。另请参阅 KERNEL_STACK_INPAGE_ERROR。如果错误状态为 0xC000000E、0xC000009C、0xC000009D 或 0xC0000185,则表示磁盘子系统出现故障。如果错误状态为 0xC000009A,则表示请求失败,因为文件系统无法向前推进。参数: Arg1:00000003,持有的锁类型(值 1、2、3,或 PTE 地址) Arg2:c0000005,错误状态(通常是 I/O 状态代码) Arg3:03400028,当前进程(锁类型 3 的虚拟地址) , 或 PTE) Arg4: 00000000, 无法入页的虚拟地址(或 PTE 内容,如果 arg1 是 PTE 地址)
MODULE_NAME:nt
IMAGE_NAME:内存损坏
错误检查 A、{0、2、1、804137d6}
可能由:ntkrnlmp.exe ( nt!CcGetVirtualAddress+ba ) 引起
我们淘汰了一些较旧的外部 USB 备份驱动器,并购买了 WD My Passport 1 TB USB 3.0 驱动器来更换它们。
当它们插入我们 G4 的前面时,它会在 BIOS(这是当前的,顺便说一句)之后永远闪烁并且永远不会启动,即使 USB 磁盘本身不是“可启动的”。
我们的旧驱动器没有表现出这种行为(所以我不认为这是我读过的关于其他服务器的此类问题。)旧驱动器是 USB 2.0,但这应该没有区别,AFAICT--规格说 G4 的所有 USB 端口都是相同的,2.0,无论如何,所以我不确定一个端口如何比另一个更好地处理 USB 3.0 设备。
如果我们将新驱动器插入后插槽之一,它可以正常启动。
什么是(最可能的)原因?我担心的是前面的 USB 端口,可能还有主板,可能会开始坏掉。
(我们遇到了其他奇怪的问题,或者最初是,例如尽管这些本地驱动器上的 ACL 是开放的,但间歇性的文件权限错误,但一些 serverfault 用户让我相信它们可能是巧合的软件/安全相关问题。)
更新:我发现 Western Digital 的网站能够提供缺少的 SES 驱动程序。我安装了这个。在那之后,两个驱动器之一(到目前为止问题较少)我无法阻止服务器使用前端端口重新启动。我将另一个插入前端口,我在其他地方重新格式化了它,它也允许服务器启动。再次重新格式化只是为了进行相等比较并进行备份(这次没有问题)并重新启动之后,服务器将无法在插入的情况下启动。由于我显然在两个驱动器之间得到了显着差异,我我想知道其中一个驱动器是否有问题,尽管我不排除 USB 端口或主板有问题的可能性。我注意到的另一件事是,与仅提及所有 4 个端口的 USB 2.0 的规格相反,在 BIOS 的硬件列表中,有 4 条 USB 1.1 线和仅 1 条 USB 2.0 线。这加起来比我能看到的物理端口总数还多,除非有像 G5 这样的内部端口,所以也许这并不意味着任何东西都必须在 1.1 下运行。