我正在考虑构建一个更大的 ZFS 池(150TB+),我想听听人们关于由于硬件故障导致数据丢失情况的经验,特别是区分仅丢失一些数据的实例与整个文件系统(如果在 ZFS 中甚至有这样的区别)。
例如:假设 vdev 由于外部驱动器机箱断电或控制器卡故障等故障而丢失。从我读到的池应该进入故障模式,但如果返回 vdev 池应该恢复?或不?或者如果 vdev 部分损坏,是否会丢失整个池、某些文件等?
如果 ZIL 设备出现故障会怎样?或者只是几个 ZIL 之一?
真正感谢以深厚的技术知识为后盾的所有轶事或假设场景!
谢谢!
更新:
由于我们是一家小型企业(大约 9 人),因此我们以低廉的价格执行此操作,但我们生成了大量成像数据。
数据主要是小文件,据我统计,每 TB 大约有 50 万个文件。
数据很重要,但不是超级关键。我们计划使用 ZFS 池来镜像 48TB 的“实时”数据阵列(使用了 3 年左右),并将其余存储用于“归档”数据。
该池将使用 NFS 共享。
机架应该在建筑物备用发电机线上,我们有两个 APC UPS,能够在满载时为机架供电 5 分钟左右。
我将一堆 ESXi 5.1 服务器运送到远程办公室,在那里它们将通过 APC UPS 供电。
我想让 UPS 触发已连接服务器的关闭 - 然后我将依靠 ESXi 配置来处理托管在其上的 VM 的关闭/暂停。
我可以看到 APC使用他们的 PowerChute Network Shutdown 记录了一个解决方案,但这涉及为每个办公室设置一个额外的服务器,并且每个 UPS 上都需要网卡。我们通常使用不带网卡的 UPS(例如 Back-UPS Pro)——它们带有 USB 连接器,并且在我们办公室所在的位置随时可用。
如何通过 USB 将 UPS 连接到 ESXi 主机,然后让 ESXi 检测到断电并采取相应措施?有没有人设法做到这一点。
我已经做了一些查找,但没有找到对这个问题的满意答案。
何时需要或建议为机架的每个电源馈送使用独立的 UPS(在其自己的主电源分支电路上)?详细说明; 当使用带有冗余电源的服务器时,通常建议每个“1”电源连接到分支电路“A”,每个“2”电源由分支电路“B”供电,但您是否需要同时使用 UPS 'A' 和 'B' 提要,还是只有一个?
背景:我的任务是计划对我们内部使用的服务器进行基础架构升级。我们是一家制造公司,我们的大部分设备和定制软件都依赖于我们办公室本地的可靠在线服务器。我们目前有两个服务器机房,每个机房都有一个机架,位于大型建筑物的两端(用于防止火灾或事故等的冗余)。他们每个人都有一个从电路“A”供电的 UPS,而我们拥有多个 PSU 的设备都连接到这个 UPS。因此,如果 UPS 死了... ploop,服务器就会消失。
我个人的理论是,将每台服务器的 PSU1 连接到 UPS,并将每台服务器的 PSU2 连接到直接从市电供电的 PDU,将提供可靠性和成本的良好组合。但我的主管认为我们应该运行两台 UPS 设备,每个馈电一台。
如果这个问题太模糊,请告诉我,我会尝试修改它。
假设您有一个完全虚拟化的 VMware 基础架构:ESXi、vCenter、vMotion、HA、DRS,整个包。
在内部,您有许多 VM,它们在任何给定时间都可能驻留在一台主机或另一台主机上(这就是集群的全部意义,不是吗?)。
您遇到了断电的情况,并且以某种方式成功地关闭了所有 VM 和所有主机;我们暂时不深入研究这个问题,假设您的 UPS 软件可以处理它。或者,至少,让我们假设关闭不是那么优雅,但是一旦电源恢复,一切仍然能够再次出现。
电源恢复,您的主机重新启动。
您的环境非常复杂,并且它在 VM 之间具有天然的依赖关系:域控制器应该首先启动,应用服务器不能启动,除非它的后端数据库服务器已经启动并运行,等等。
我们都知道(或者应该知道)如何配置自动 VM 启动以及如何在单个 ESX/i 主机上指定 VM 启动顺序和延迟。
但是如何在整个数据中心内做到这一点呢?
有什么方法可以告诉 vSphere“以全局顺序启动这些虚拟机,而不管它们运行在哪个物理主机上”?
加分项:如果 vCenter 本身在虚拟机上运行,这会如何改变事情?
startup datacenter vmware-esxi vmware-vcenter vmware-vsphere
过去几天,我一直在为内部网络上的少数最终用户寻找数据包丢失和网络稳定性问题......这些问题上周浮出水面,但该位置在六周前被闪电击中。
我发现在 77 米跑道的另一侧,四个 Cisco 2960 与几台 PC 和电话的堆栈之间的数据包丢失率为 5-10%。PC 通过中继链路(switchport 配置 pastebin)与电话串联运行。我们在客户端-服务器应用程序和 Microsoft Exchange 连接中看到掉线和中断。
我远程尝试了通常的故障排除步骤,让本地技术人员在用户和生产活动中断期间执行以下操作:
sh int)test cable-diagnostics tdr int Gi4/0/9(干净)*从 Cisco 2960 运行测试电缆最终,换了3次交换机端口才找到稳定的解决方案。唯一合乎逻辑的结论是一些 Cisco 2960 交换机端口坏了或不稳定……没有死,但行为也不一致。我不习惯看到单个端口以这种方式死亡。
我还可以测试或检查什么来确定这些设备是否有问题?
验证这一点的最佳实践方法是什么?
单个端口出现问题而不是连续的一组端口是否常见?
顺便说一句 -show cable-diagnostics tdr int Gi4/0/14非常酷......
Interface Speed Local pair Pair length Remote pair Pair status …Run Code Online (Sandbox Code Playgroud) 今天,超过 6,000 美元的网络设备被摧毁。值得注意的是,主电路SPD、电源板和APC都很好。以太网似乎是浪涌传输的方法,因为在光纤链路被烧毁之前,所有连接到物理网络的东西都是如此。这个事件的独特之处(对我来说)是观察到的闪光、闪电、球火和巨响。
我对这种损害感到惊讶。首先,因为房间受到接地周边(和中心线)铜线和频繁天线的保护。其次,我们有良好的地面网络。第三,观察到的螺栓距离承载网线的塑料导管至少有 1 米。
我们处在一个闪电活动非常频繁的地区,到目前为止,我认为我们在保护网络方面做得很好。
那么,还能做些什么呢?我们的以太网电缆是否应该放入大型接地金属导管中?或者,塑料导管上方的接地笼?
以太网导管所在的天花板空间有金属螺柱和上方的屋顶。我们是否应该从螺柱网络安装直接接地?或者,这是否会通过将未来的撞击“吸引”到螺柱中来增加 EMF 损坏风险而使事情变得更糟?
我有 Cisco RV110W 无线路由器。暴风雨过后,WAN 端口被烧毁。我可以将 LAN 端口之一用作 WAN 吗?
在“切换设置”下查看我找不到解决方案。在 Cisco文档中,我也找不到解决方案。
cisco ×2
networking ×2
vmware-esxi ×2
backup ×1
datacenter ×1
ethernet ×1
filesystems ×1
hardware ×1
redundancy ×1
startup ×1
storage ×1
switch ×1
ups ×1
wifi ×1
zfs ×1