上周我们遇到了以下问题:由于更换 UPS,我们不得不关闭整个基础设施。在电气操作结束时,我们重新启动了:
等待 ESXi 启动后,我们发现集群出现错误:配置资源不足,无法满足集群上所需的 vSphere HA 故障切换级别。
然后我们发现 vCenter 无法通过网络联系 ESXi:交换机的 PDU 在操作过程中被拔掉。
重新插入 PDU,ESXi 现在可以与 vCenter 通信,但每个主机上都出现以下警报:无法正确安装或配置 vSphere HA 代理。
我们决定重新启动两个 ESXi,不走运,错误仍然存在。
由于维护窗口的限制,我们决定从集群中删除两台主机以便能够启动我们的虚拟机,代价是在一台主机发生故障时不会自动进行故障转移。
在谷歌搜索了很多之后,我们尝试了许多 VMware 的知识库(无顺序):
没有结果了……
在我们的旅程中,我们/var/log/fdm.log在两台主机上只发现了一个错误:
2018-06-25T09:05:54.232Z error fdm[47A8940] [Originator@6876 sub=Cluster] [ClusterPersistence::DoFetchDataSync] Open of file /etc/opt/vmware/fdm/kvstore failed: No such file …Run Code Online (Sandbox Code Playgroud)