10GigE 上的 DRBD 糟糕的同步性能

Question

10GigE 上的 DRBD 糟糕的同步性能

waz*_*oox 16 linux performance debian drbd

我已经设置了一对具有 RAID 阵列（8 核、16GB RAM、12x2 TB RAID6）、3 个 10GigE 接口的相同服务器，以托管一些高可用性服务。

这些系统目前运行的是 Debian 7.9 Wheezy oldstable（因为 corosync/pacemaker 在 8.x stable 和 testing 上均不可用）。

本地磁盘性能约为 900 MB/s 写入，1600 MB/s 读取。
机器之间的网络吞吐量超过 700MB/s。
通过 iSCSI，每台机器可以以超过 700 MB/s 的速度写入对方的存储。

但是，无论我如何配置 DRBD，吞吐量都限制在 100MB/s。它看起来真的像一些硬编码限制。我可以通过调整设置来可靠地降低性能，但它永远不会超过 1Gbit（一次达到 122MB/s 几秒钟）。我真的很喜欢这个。

普通香草内核 3.18.24 amd64
drbd 8.9.2~rc1-1~bpo70+1

配置分为两个文件global-common.conf：：

global {
        usage-count no;
}

common {
        handlers {
        }

        startup {
        }

        disk {
                on-io-error             detach;
         #       no-disk-flushes ;
        }
        net {
                max-epoch-size          8192;
                max-buffers             8192;
                sndbuf-size             2097152;
        }
        syncer {
                rate                    4194304k;
                al-extents              6433;
        }
}

Run Code Online (Sandbox Code Playgroud)

和cluster.res：

resource rd0 {
        protocol C;
        on cl1 {
                device /dev/drbd0;
                disk /dev/sda4;
                address 192.168.42.1:7788;
                meta-disk internal;
        }

        on cl2 {
                device /dev/drbd0;
                disk /dev/sda4;
                address 192.168.42.2:7788;
                meta-disk internal;
        }
}

Run Code Online (Sandbox Code Playgroud)

从cat /proc/drbd站输出：

version: 8.4.5 (api:1/proto:86-101)
srcversion: EDE19BAA3D4D4A0BEFD8CDE 
 0: cs:SyncTarget ro:Secondary/Secondary ds:Inconsistent/UpToDate C r-----
    ns:0 nr:4462592 dw:4462592 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:16489499884
        [>....................] sync'ed:  0.1% (16103024/16107384)M
        finish: 49:20:03 speed: 92,828 (92,968) want: 102,400 K/sec

Run Code Online (Sandbox Code Playgroud)

vmstat 2主机上的输出（两台机器几乎完全空闲）：

procs -----------memory---------- ---swap-- -----io---- -system-- ----cpu----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa
 0  0      0 14952768 108712 446108    0    0   213   254   16    9  0  0 100  0
 0  0      0 14952484 108712 446136    0    0     0     4 10063 1361  0  0 99  0
 0  0      0 14952608 108712 446136    0    0     0     4 10057 1356  0  0 99  0
 0  0      0 14952608 108720 446128    0    0     0    10 10063 1352  0  1 99  0
 0  0      0 14951616 108720 446136    0    0     0     6 10175 1417  0  1 99  0
 0  0      0 14951748 108720 446136    0    0     0     4 10172 1426  0  1 99  0

Run Code Online (Sandbox Code Playgroud)

iperf两台服务器之间的输出：

------------------------------------------------------------
Client connecting to cl2, TCP port 5001
TCP window size:  325 KByte (default)
------------------------------------------------------------
[  3] local 192.168.42.1 port 47900 connected with 192.168.42.2 port 5001
[ ID] Interval       Transfer     Bandwidth
[  3]  0.0-10.0 sec  6.87 GBytes  5.90 Gbits/sec

Run Code Online (Sandbox Code Playgroud)

显然初始同步应该有点慢，但不是这么慢......此外，它并没有真正对任何像drbdadm disk-options --resync-rate=800M all.

Answer 1

Mat*_*man 11

在较新版本的 DRBD（8.3.9 和更新版本）中，有一个需要调整的动态重新同步控制器。在旧版本的 DRBD 设置中syncer {rate;}就足够了；现在它更多地用作动态重新同步速度的轻微建议的起始位置。

动态同步控制器使用 DRBD 配置的磁盘部分中的“c-settings”进行调整（$ man drbd.conf有关每个设置的详细信息，请参阅参考资料）。

在这些节点之间使用 10Gbe 并假设使用协议 C 后的低延迟，以下配置应该能让事情更快地进行：

资源 rd0 {
        协议 C；
        磁盘{
                c-fill-target 10M;
                c-最大速率700M；
                c-提前计划 7；
                c-min-rate 4M；
        }
        在 cl1 {
                设备 /dev/drbd0;
                磁盘 /dev/sda4;
                地址 192.168.42.1:7788；
                元磁盘内部；
        }

        在 cl2 {
                设备 /dev/drbd0;
                磁盘 /dev/sda4;
                地址 192.168.42.2:7788；
                元磁盘内部；
        }
}

如果您仍然不满意，请尝试max-buffers提高到 12k。如果您仍然不满意，您可以尝试c-fill-target以 200 万的增量出现。

如果将 max-buffers 增加到 20k，c-fill-target 增加到 20M，会发生什么？我相信慢慢增加这两个值最终会给你你正在寻找的结果。 (2认同)

Answer 2

waz*_*oox 8

其他地方有人建议我使用这些设置：

        disk {
                on-io-error             detach;
                c-plan-ahead 0;
        }
        net {
                max-epoch-size          20000;
                max-buffers             131072;
        }

Run Code Online (Sandbox Code Playgroud)

并且性能非常出色。

编辑： 根据@Matt Kereczman 和其他人的建议，我终于改为：

disk {
        on-io-error             detach;
        no-disk-flushes ;
        no-disk-barrier;
        c-plan-ahead 0;
        c-fill-target 24M;
        c-min-rate 80M;
        c-max-rate 720M;
} 
net {
        # max-epoch-size          20000;
        max-buffers             36k;
        sndbuf-size            1024k ;
        rcvbuf-size            2048k;
}

Run Code Online (Sandbox Code Playgroud)

重新同步速度高：

cat /proc/drbd
version: 8.4.5 (api:1/proto:86-101)
srcversion: EDE19BAA3D4D4A0BEFD8CDE
 0: cs:SyncSource ro:Primary/Secondary ds:UpToDate/Inconsistent C r---n-
    ns:133246146 nr:0 dw:2087494 dr:131187797 al:530 bm:0 lo:0 pe:5 ua:106 ap:0 ep:1 wo:d oos:4602377004
        [>....................] sync'ed:  2.8% (4494508/4622592)M
        finish: 1:52:27 speed: 682,064 (646,096) K/sec

Run Code Online (Sandbox Code Playgroud)

在使用这些设置（本地写入速度的 80%，全线速）重新同步期间，写入速度非常出色：

# dd if=/dev/zero of=./testdd bs=1M count=20k
20480+0 enregistrements lus
20480+0 enregistrements écrits
21474836480 octets (21 GB) copiés, 29,3731 s, 731 MB/s

Run Code Online (Sandbox Code Playgroud)

读取速度还可以：

# dd if=testdd bs=1M count=20k of=/dev/null
20480+0 enregistrements lus
20480+0 enregistrements écrits
21474836480 octets (21 GB) copiés, 29,4538 s, 729 MB/s

Run Code Online (Sandbox Code Playgroud)

后期编辑：

完全重新同步后，性能非常好（线速写入，本地速读）。重新同步很快（5/6 小时）并且不会对性能造成太大影响（线速读取、线速写入）。我肯定会坚持 c-plan-ahead 为零。对于非零值，重新同步太长了。

Answer 3

小智 5

c-plan-ahead 必须设置一个正值以启用动态同步速率控制器。磁盘c-plan-ahead 15; // 5 * RTT / 0.1s unit,in my case is 15 c-fill-target 24; c-max-rate 720M;

归档时间：	9 年，11 月前
查看次数：	21534 次
最近记录：	6 年，11 月前