我需要在 RAID5 和 RAID6 之间做出决定。
这些服务器有一个硬件 RAID 控制器和 6 个驱动器。
这些驱动器是 RE3 企业西部数据 1TB 驱动器。数据表说 MTTF = 1.2Mio 小时,误码率 = 1/10^15
在另一台服务器上,甚至还有 6 个希捷 SAS 硬盘(每个 172GB),MTTF = 1.6Mio 小时,误码率 = 1/10^16。
在做数学运算时,我得到了相当舒适的数字(大约 110 年的数据丢失)与 SAS 驱动器甚至更多。然而,这使用制造商数据。这是现实的吗?这是公式(在最后一张幻灯片上,它是德语 - 抱歉:http : //www.heinlein-support.de/sites/default/files/RAID-Mathematik_fuer_Admins.pdf
我还发现:http : //blog.kj.stillabower.net/?p=37 - 这些图表表明 6 个驱动器可以工作,但对于任何重要的事情,都应该求助于 RAID6。但是,此数据较旧并且还包括消费者驱动器?
那么,有关于这方面的真实世界数据吗?我看到使用超过 8-9 个磁盘是有问题的。不过看起来 6 个企业磁盘还是可以的。
那么该怎么办?RAID-5 还是 RAID-6?
我负责 44 个节点的 Hadoop 集群。我们有 1.5TB WD Green Drives(非常未知)负载循环计数问题。
这些磁盘工作正常,但随着它们变老,它们显示出越来越多的坏块。重写这些坏块有一段时间了,但它们会重新出现在不同的地方。
由于这些磁盘中的大多数仅用于 Hadoop 数据节点,我们没有预算来替换它们,因此我正在寻找一种策略
不要疯狂维护集群,磁盘错误和相关的文件系统问题几乎每天都会出现。我目前的流程是:
dmesg输出定位坏块并smartctl使用hdparm --write-sector.fsck -f -y在磁盘上运行并重新安装它。保持系统稳定。
目前我已将mount选项更改为:
erros=continue,noatime 但由于日记错误,我得到了 occosial 只读重新安装。 然后我尝试禁用日志:
tune2fs -O ^has_journal 这避免了只读重新挂载但似乎损坏了文件系统(这是有道理的,没有日志) 现在我正在考虑切换到
tune2fs -o journal_data_writeback并mount与data=writeback,nobh,barrier=0 但我不确定这是否会重新引入只读重新安装。
所以,我想避免只读重新挂载,想要维护稳定的文件系统元数据但不关心数据中的错误(Hadoop 会处理这个问题)。速度也不应该受到影响。
我有哪些选择?我知道这对任何系统管理员来说都是一个噩梦。操作系统分区安装了完整的日志,我不打算在生产数据上进行测试。这严格适用于 Hadoop 数据节点/任务跟踪器硬盘。
我的 rootfs 硬盘坏了 - 这可能导致文件系统以只读方式挂载......但/proc/mounts仍然说它已挂载rw:
$ cat /proc/mounts
rootfs / rootfs rw 0 0
sysfs /sys sysfs rw,nosuid,nodev,noexec,relatime 0 0
proc /proc proc rw,nosuid,nodev,noexec,relatime 0 0
udev /dev devtmpfs rw,relatime,size=7575440k,nr_inodes=1893860,mode=755 0 0
devpts /dev/pts devpts rw,nosuid,noexec,relatime,gid=5,mode=620,ptmxmode=000 0 0
tmpfs /run tmpfs rw,nosuid,relatime,size=3033888k,mode=755 0 0
/dev/disk/by-uuid/548b00b0-bd98-4017-9e62-5c27b633268b / ext4 ro,noatime,errors=remount- ro,data=ordered 0 0
none /sys/fs/fuse/connections fusectl rw,relatime 0 0
none /sys/kernel/debug debugfs rw,relatime 0 0
none /sys/kernel/security securityfs rw,relatime 0 0
none /run/lock tmpfs rw,nosuid,nodev,noexec,relatime,size=5120k 0 0
none …Run Code Online (Sandbox Code Playgroud) linux ×2
bad-blocks ×1
ext4 ×1
filesystems ×1
hadoop ×1
hard-drive ×1
mount ×1
raid ×1
raid5 ×1
raid6 ×1
rootfs ×1
ubuntu ×1