grs*_*grs 6 linux nfs io iowait drbd
我有一个服务器,它通过 NFS 导出主目录。它们位于软件 RAID1(/dev/sdb 和 /dev/sdc)上,操作系统位于 /dev/sda 上。我注意到我的%iowait
报告top
和sar
相对较高(与其他服务器相比)。值范围在 5-10% 之间,至于其他服务器(比这台服务器负载更多)与 0-1% 相同。当%iowait
达到 12% 以上时,所谓的用户体验就会下降。然后我们会经历延迟。
我在日志中没有任何驱动器错误。我想避免使用试错法来玩驱动器。
如何找出哪个设备(/dev/sda、/dev/sdb 或 /dev/sdc)是瓶颈?
谢谢!
编辑:我使用 Ubuntu 9.10 并且已经iostat
安装。我对 NFS 相关问题不感兴趣,但更多的是如何找到使系统变慢的设备。NFS 没有加载,我有 32 个线程可用,结果是
grep th /proc/net/rpc/nfsd
th 32 0 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
Run Code Online (Sandbox Code Playgroud)
Edit2:这是iostat -x 1
输出的一部分(我希望我没有在这里违反一些规则):
avg-cpu: %user %nice %system %iowait %steal %idle
45.21 0.00 0.12 4.09 0.00 50.58
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 0.00 21.00 0.00 368.00 0.00 17.52 0.17 8.10 6.67 14.00
sdb 0.00 6.00 0.00 6.00 0.00 96.00 16.00 0.00 0.00 0.00 0.00
sdc 0.00 6.00 0.00 6.00 0.00 96.00 16.00 0.00 0.00 0.00 0.00
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 21.00 0.00 368.00 0.00 17.52 0.17 8.10 6.67 14.00
dm-2 0.00 0.00 0.00 12.00 0.00 96.00 8.00 0.00 0.00 0.00 0.00
drbd2 0.00 0.00 0.00 12.00 0.00 96.00 8.00 5.23 99.17 65.83 79.00
avg-cpu: %user %nice %system %iowait %steal %idle
45.53 0.00 0.24 6.56 0.00 47.68
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 1.00 23.00 2.00 424.00 24.00 17.92 0.23 9.20 8.80 22.00
sdb 0.00 32.00 0.00 10.00 0.00 336.00 33.60 0.01 1.00 1.00 1.00
sdc 0.00 32.00 0.00 10.00 0.00 336.00 33.60 0.01 1.00 1.00 1.00
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 23.00 0.00 424.00 0.00 18.43 0.20 8.70 8.70 20.00
dm-2 0.00 0.00 0.00 44.00 0.00 352.00 8.00 0.30 6.82 0.45 2.00
drbd2 0.00 0.00 0.00 44.00 0.00 352.00 8.00 12.72 80.68 22.73 100.00
avg-cpu: %user %nice %system %iowait %steal %idle
44.11 0.00 1.19 10.46 0.00 44.23
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 637.00 19.00 16.00 432.00 5208.00 161.14 0.34 9.71 6.29 22.00
sdb 0.00 31.00 0.00 13.00 0.00 352.00 27.08 0.00 0.00 0.00 0.00
sdc 0.00 31.00 0.00 13.00 0.00 352.00 27.08 0.00 0.00 0.00 0.00
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-1 0.00 0.00 20.00 651.00 456.00 5208.00 8.44 13.14 19.58 0.33 22.00
dm-2 0.00 0.00 0.00 42.00 0.00 336.00 8.00 0.01 0.24 0.24 1.00
drbd2 0.00 0.00 0.00 42.00 0.00 336.00 8.00 4.73 73.57 18.57 78.00
avg-cpu: %user %nice %system %iowait %steal %idle
46.80 0.00 0.12 1.81 0.00 51.27
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 0.00 16.00 0.00 240.00 0.00 15.00 0.14 8.75 8.12 13.00
sdb 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdc 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Run Code Online (Sandbox Code Playgroud)
最相关的列是什么?哪些价值观被认为是不健康的?我想await
并且%util
是我正在寻找的人。在我看来dm-1
是瓶颈(这是 DRBD 资源元数据)。
双重感谢!
Edit3:这是我的设置:
sda
= 操作系统,无 RAID。设备dm-0
并dm-1
在其上,因为后者是 DRBD 资源的元数据设备(见下文)。这两个dm-0
和dm-1
是LVM卷;
drbd2 = dm-2 = sdb + sdc
-> 这是 RAID1 设备,它通过 NFS 为用户主目录提供服务。我不认为这是瓶颈。这里没有 LVM 卷。
iostat -x 1
?
有人告诉我,我必须进一步扩展该答案,但目前我不知道要添加什么。您没有说明您使用的是哪个发行版,因此如果您还没有安装 iostat 的方法,我无法向您指出它。但我认为这就是你要的。
编辑:很高兴看到一些 iostat 输出!目前,sd[ab] 设备具有几乎相同的数字,它们在 RAID-1 中应该是相同的,并且都没有饱和;sdc 也不是。然而,drbd2 是;这是用来做什么的,它会如何影响整个服务器的性能?
编辑2:我真的不知道该建议什么。您承认 drbd2 “通过 NFS 为用户主目录提供服务”,并且您说您有 NFS 服务器延迟问题。您生成的 iostat 输出非常令人信服地说 drbd2 是瓶颈设备。然后你说“在我看来 dm-1 是瓶颈”和“我不认为 [drbd2] 是瓶颈”。我不清楚你有什么证据与 drbd2 是瓶颈的假设相矛盾,但很高兴看到它。
归档时间: |
|
查看次数: |
28411 次 |
最近记录: |