yan*_*nce 6 dell pci dell-poweredge
我工作的公司刚刚购买了 3 台 PowerEdge 2970 服务器,它们都有同样的问题。
这是问题所在:
1.开启服务器。它启动到红帽闪屏。
2.在启动过程中,服务器崩溃并出现以下错误:
-CPU Machine Chk: processor sensor, transition to non-recoverable was asserted
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 1 FUNC 0)
Run Code Online (Sandbox Code Playgroud)
然后我尝试更新BIOS和BMC,但问题仍然存在。在那之后,我尝试将操作系统(它有红帽企业 5.1)更新到红帽 5.3 那里也有一些奇怪的东西。我使用构建和更新实用程序启动了服务器,然后选择了安装操作系统。我选择了 red hat Enterprise 5.3 x86_64。它向我询问 x86_64 媒体,所以我放入了磁盘,上面写着:64 位 AMD64 和 Intel 64 的补充磁盘 1 of 1。它说错误的磁盘。然后我使用了光盘,上面写着:安装光盘 1 of 1 for 64-bit Intel Itanium。我猜这就是我一直需要使用的光盘。
在此之后,系统能够启动到命令行登录屏幕。我登录并输入:startx 进入 gui 环境。那时,只有不到一页文本快速滚动,服务器崩溃了,没有显示任何与 gui 相关的内容。
那时我有 2 个不同的错误(注意设备现在是 4,要检查它是哪个设备):
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 4 FUNC 0)
-PCI Sytem Error:critical event sensor, PCI SERR(BUS 0 DEVICE 4 FUNC 0)
Run Code Online (Sandbox Code Playgroud)
所以今天技术人员带着一堆零件来了,基本上是在现场重建了服务器(PCI 转接卡、主板、DIMM、SAS 卡和其他我无法想象的东西),但在那之后问题就变得更加严重了更差。其中一些错误是(请注意,当时他正在放回一些原始部件,因此事情变得混乱):
ECC uncorr Err:内存传感器,不可纠正的 ECC (DIMM1 DIMM2) 被断言。
E1231 1.2V HT 核心电源 GD
E1911 <3 ERRORS check log
E1000 故障安全
明天他带着电源回来了……
更新:似乎我不能再浪费时间在这上面了。我们正在致电销售人员并要求提供新服务器。
我最近在戴尔遇到了类似的问题。技术支持似乎无法将错误与故障部件直接关联起来。很多时候他们只是发出我称之为“我不知道出了什么问题的零件包”。通常由系统板、PCI 转接卡、替换内存组成,有时还包括替换 CPU 和 RAID 控制器。
他们经常忘记更换的一件事是集成 PERC 卡的提升板。我已经多次看到这个问题了。
无论如何,正如我之前评论的,除非您真的急于部署这些服务器,否则我会联系戴尔客户服务部门并要求更换或退款所有三台服务器。
| 归档时间: |
|
| 查看次数: |
13271 次 |
| 最近记录: |