eww*_*ite 33 hardware memory hp supermicro stress-testing
考虑到许多服务器级系统都配备了ECC RAM,在部署之前烧入内存 DIMM是否必要或有用?
我遇到过这样一种环境,其中所有服务器 RAM 都经过漫长的老化/压力测试过程。这有时会延迟系统部署并影响硬件交付时间。
服务器硬件主要是Supermicro,因此 RAM 来自各种供应商;不是直接来自制造商,如Dell Poweredge或HP ProLiant。
这是一个有用的练习吗?在我过去的经验中,我只是直接使用供应商 RAM。POST内存测试不应该捕获 DOA 内存吗?我早在 DIMM 实际发生故障之前就对 ECC 错误做出了响应,因为 ECC 阈值通常是保修安置的触发因素。
Sha*_*den 31
不。
烧毁硬件的目标是将其强调到催化组件故障的程度。
用机械硬盘驱动器这样做会得到一些结果,但它不会对 RAM 做很多事情。组件的性质使得环境因素和老化比读取和写入 RAM(即使在其最大带宽下几个小时或几天)更有可能成为失败的原因。
假设您的 RAM 质量足够高,以至于您第一次真正开始使用它时焊料不会熔化,那么老化过程将无法帮助您找到缺陷。
Luc*_*man 26
我找到了金士顿的一份文档,详细说明了他们如何使用服务器内存,我相信这个过程对于大多数知名制造商来说通常是相同的。存储芯片以及所有半导体设备都遵循特定的可靠性/故障模式,称为浴缸曲线:

时间在横轴上表示,从工厂发货开始并持续到三个不同的时间段:
早期故障:大多数故障发生在早期使用期间。然而,随着时间的推移,故障的数量会迅速减少。早期生命失败期(以黄色显示)约为 3 个月。
使用寿命:在此期间,故障极为罕见。使用寿命以蓝色显示,估计为 20 年以上。
寿命终止故障:最终,半导体产品会磨损并出现故障。生命周期终止期以绿色显示
现在因为金士顿注意到前三个月会出现高故障率(在这三个月之后,该设备被认为是好的,直到大约 15 到 20 年后它的 EOL)。他们使用名为 KT2400 的单元设计了一项测试,该单元在 100 摄氏度的高电压下对服务器内存模块进行了 24 小时的残酷测试,通过这种方式,每个 DRAM 芯片的所有单元都将持续运行;这种高水平的压力测试会使模块老化至少三个月(如大多数模块出现故障的关键时期之前所述)。
结果是:
2004 年 3 月,金士顿开始了为期六个月的试用,其中 100% 的服务器内存在 KT2400 上进行了测试。密切监测结果以衡量故障的变化。2004 年 9 月,在对所有测试数据进行汇总和分析后,结果表明故障减少了 90%。这些结果超出了预期,代表了对本已处于同类产品顶端的产品线的重大改进。
那么为什么在内存中刻录对服务器内存没有用呢?很简单,因为它已经由您的制造商完成了!
Cho*_*er3 15
我们购买刀片,并且我们通常一次购买相当大的刀片,因此我们会在我们的网络端口准备好/安全之前的几天内将它们放入并安装它们。因此,我们利用这段时间使用 memtest 大约 24 小时,如果它超过周末,有时会更长 - 完成后,我们喷洒基本的 ESXi,IP 已准备好在网络启动后应用其主机配置文件。所以是的,我们测试它,更多是出于机会而不是必要,但它之前已经捕获了一些 DOA DIMM,而且这不是我亲自做的,所以我不费吹灰之力。我是为了它。
Ata*_*911 11
好吧,我想这完全取决于您的流程是什么。在我将它放入系统(服务器或其他)之前,我总是在内存上运行 MemTest86。系统启动并运行后,由故障内存引起的问题可能很难解决。
至于实际上对内存进行“压力测试”;我什至还没有明白为什么这会很有用,除非您正在测试超频目的。
我没有,但我见过有人这样做。不过,我从未见过他们从中获得任何好处,我认为这可能是宿醉或迷信。
就个人而言,我和你一样,因为 ECC 错误率对我更有用——假设 RAM 不是 DOA,但无论如何你都会知道。
对于非 ECC ram,在 memtest86+ 上运行 30 分钟很有用,因为在系统运行时通常没有可靠的方法来检测位错误。
蓝屏被认为是不可靠的方法......
而且轻微片状的 RAM 通常不会立即显示,只有在系统看到一些全内存负载之后,只有当该 RAM 中的数据是被使用的代码并且然后坠毁。数据损坏可能会在很长一段时间内不被注意。
对于 ECC ram,它不会做任何内存控制器本身不会做的事情,所以它真的没有意义。这只是浪费时间。
以我的经验,坚持燃烧的人通常是老家伙,他们总是这样做,并且出于习惯而一直这样做,而没有真正认为事情是真的。
或者他们是按照那些老家伙写的规定程序的年轻人。
| 归档时间: |
|
| 查看次数: |
5976 次 |
| 最近记录: |