虚拟机在 Hyper V 群集上失去网络连接

Chr*_*s W 5 networking hyper-v hyper-v-server-2008-r2

我们使用 Hyper V 在刀片的 6 节点故障转移集群上运行多个 VM。

我们有一个间歇性问题(每隔几天在不同时间 - 不是固定频率)虚拟机失去网络连接。对 VM 的控制台访问表明一切正常,底层刀片具有正常连接。为了解决这个问题,我们要么必须重新启动虚拟机,或者更常见的是,我们实时迁移到另一个刀片,这会启动连接,然后我们将其迁移回原始刀片。

我已经在特定刀片上运行的特定 VM 发生了 3 个这种情况,但是在不同的刀片上运行不同的 VM 时发生过一次。所有 VM 和刀片都具有相同的基本设置并运行 Windows 2008 R2。

由于事件日志没有提供任何帮助,我应该寻找诊断此问题的可能原因的任何想法?

编辑:

我已经检查过每个刀片是否都在运行最新的 NIC 驱动程序,一切似乎都很好。

令我困惑的事情 - 虚拟机的故障转移或重新启动解决了该问题。虽然我需要解决导致 NIC 挂起的潜在问题,但我还担心 VM 没有故障转移到另一个可以为我解决中断的节点。有没有办法配置集群,以便它可以判断 VM 来宾已丢失连接并进行故障转移?就目前情况而言,集群假设 VM 正在愉快地运行,因为我认为 Hyper V 表示即使存在问题也一切正常。

编辑:

我想我会更新这个,因为问题仍然很突出 - 不那么频繁,但对于哪个 VM 受到影响似乎仍然是随机的。最新检查是所有 VM 都运行相同的 MPIO 驱动程序和相同的虚拟 NIC 驱动程序版本。一切看起来都与运行在同一刀片中心但在此集群之外的一些 VM 相同,并且这些 VM 从未遇到任何问题。

Chr*_*s W 0

这不是我希望的理想答案,但在这种情况下它适用于我们的设置......

我们将受影响的虚拟机从集群中取出,删除网卡,然后重新创建它们。同时,每个刀片均从集群中拉出,并在拉回之前更新所有驱动程序。

在我监控的接下来的 6 周内,连接丢失问题很明显 - 之后的工作变动意味着我不确定问题是否仍然得到解决;)!