Bry*_*yan 5 hard-drive io dfs-r windows-server-2012 hyper-v-server-2012
我们有许多 Server 2012 系统,所有这些系统都在 Hyper-V 2012 服务器上运行虚拟化。我们遇到了两个这样的虚拟实例问题,这两个实例都用作文件服务器,因此它们偶尔会停止响应向客户端提供文件的请求。登录到服务器后,尝试正常关闭它失败(没有错误,它只是无法确认关闭请求)。
恢复是从 Hyper-V 控制台重启服务器的一种情况。
这两个服务器不为大量用户提供服务(一个服务不超过 6 个用户,另一个服务大约 20 个用户),它们在同一个域中,但是在不同的物理硬件上(并且在不同的站点)。它们不会同时锁定。他们都使用 DFSR 通过 ADSL 连接在他们之间复制相当大量的数据 (200GB),这工作正常,我们一直在使用 DFSR 在我们使用的前两代服务器操作系统 (Server 2008 R2和 Server 2003 - 但是两者都是物理安装)。
今天,当其中一台服务器崩溃时,我注意到事件日志中有一条类似于以下内容的条目:
Log Name: Application
Source: ESENT
Date: 27/11/2012 10:25:55
Event ID: 533
Task Category: General
Level: Warning
Keywords: Classic
User: N/A
Computer: HAL-FS-01.example.com
Description:
DFSRs (1500) \\.\E:\System Volume Information\DFSR\database_C8CC_101_CC00_EC0E\
dfsr.db: A request to write to the file "\\.\E:\System Volume Information\
DFSR\database_C8CC_101_CC00_EC0E\fsr.log" at offset 4423680 (0x0000000000438000)
for 4096 (0x00001000) bytes has not completed for 36 second(s). This problem is
likely due to faulty hardware. Please contact your hardware vendor for further
assistance diagnosing the problem.
Run Code Online (Sandbox Code Playgroud)
当服务器再次启动时,我去找事件日志条目进一步调查,发现事件日志条目不再存在(我假设它在内存中但在服务器断电之前写入磁盘失败,对于消息中提到的原因)。我通过在事件日志中进一步搜索找到了上述消息。
这两个虚拟服务器的 E: 卷都已完全分配,而不是动态扩展,并且在任何其他虚拟服务器(包括 server 2012、server 2008 R2 和 Ubuntu 12.04 x64)上都没有其他问题。主机系统上没有 IO、内存或 CPU 不足的迹象。
我已经在受影响的虚拟服务器上使用性能计数器来监控内存使用情况(包括非分页池使用情况),以及 CPU 和网络使用情况,当问题出现时,这些都没有出现任何问题。
我本以为我们的配置并不少见,所以我想知道是否有其他人看到过这个,并设法解决了这个问题?
主机规格如下:
hal-vm-01
总共运行 5 个虚拟服务器(受影响的文件服务器、DC + 其他来宾)是 Dell Poweredge R710、16GB、6 x 300GB SAS 15K RAID 10、Perc H700
hey-vm-01
系统运行 2 个虚拟服务器(受影响的文件服务器和 DC) Dell Poweredge T620,16GB,2 个 3TB SATA RAID 1,Perc H310
我们还有一个hal-vm-02
运行 5 个来宾的虚拟服务器,它不受此问题的影响,并且规格低于hal-vm-01
,但加载大致相同(交换、DC、SQL + 其他来宾)。更多内存正在准备中,以便我们可以在此主机和“hal-vm-01”之间配置无共享故障转移。
两个受影响的虚拟服务器上运行着 AV 软件 (MS SCEP),它们被配置为仅在创建时扫描,而不扫描由 dfsrs.exe 进程创建的文件。VM 主机本身没有运行 AV 软件。
我们在主机上使用 Windows Server 2012 备份hal-vm-01
来备份所有 VM,这需要几个小时。另一个受影响的服务器hey-vm-01
没有备份,因为它只是我们总部数据的异地 DFSR 副本。另一个备份作业在受影响的虚拟来宾上运行hal-fs-01
,这也使用 Windows Server 备份来拍摄存储在 DFS 复制共享中的数据的快照。两个备份工作都用完了办公时间。
三个月后...
三个多月以来,我们向 Microsoft 提供了支持票证,有大量性能计数器日志、内存转储、事件日志发送给 Microsoft。他们执行的分析表明 hal-fs-01 的一个虚拟驱动器(有问题的虚拟服务器)存在问题。有问题的虚拟驱动器是服务器的E:\
驱动器,它恰好包含我们所有的 DFSR 组和共享。最近,我将E:\
驱动器上的所有数据移到添加到服务器的许多较小的虚拟磁盘上,当然也移动了所有共享和 DFSR 组,只在E:\
驱动器上留下了 Windows 部署服务文件。尽管如此,我们仍然看到写入E:\
驱动器失败的问题。
上周,我将 WDS 文件移动到了一个新的虚拟磁盘,并禁用了 WDS 服务。我还删除了E:\
虚拟磁盘,以防磁盘出现异常。从那以后,我们还没有再次出现故障,但是现在知道这是否解决了问题还为时过早,因为截至本次编辑 (20/03/2013) 之前,我们最长的正常运行时间约为 2 周,我们只有一周的时间进入当前配置,如果下周问题没有再次出现,我将重新启用 WDS,因为我怀疑 WDS 可能是罪魁祸首。
我会不断更新这个问题(如果我设法解决了问题,则提供答案)。
移回 Server 2008 R2...
没有更新问题的进展,但我们最终回滚到 Server 2008 R2,一切正常。我仍然有兴趣听到有人遇到此问题并设法找到解决方法。