执行相同工作的服务器的不同 linux 页面缓存行为

Question

执行相同工作的服务器的不同 linux 页面缓存行为

Eri*_*k B 6 linux performance virtual-memory elasticsearch

我有两组带有 128G 内存的服务器，以它们的配置时间来区分，它们在运行完全相同的守护程序（elasticsearch）时表现非常不同。我使用 elasticsearch 进行全文搜索，而不是日志存储，所以这基本上是一个读取量大的操作，写入次数最少（小于 1MB/s）。这个守护进程 mmap 将大约 350GB 的完整数据集放入其虚拟内存中，然后访问其中的某些部分以服务请求。这些服务器没有配置交换空间。

问题是一组服务器表现良好，每秒发出约 50 个主要故障，平均需要 10MB/s 的磁盘 io 来满足该需求。性能不佳的服务器每秒会出现 500 个主要故障，平均需要约 200MB/s 的磁盘 io 来满足这一要求。磁盘 io 的增加会导致 p95 响应延迟不佳和偶尔过载，因为它达到了 ~550MB/s 的磁盘限制。

它们都位于同一个负载均衡器之后，并且是同一个集群的一部分。我可以看到一台服务器是否表现不佳，这可能是负载差异，但要与 16 台服务器表现不佳和 20 台服务器表现良好有如此明显的区别，它们在不同时间购买+配置，内核/配置级别一定是导致问题的原因。

为了解决这个问题，我怎样才能让这些行为不佳的服务器表现得像那些表现良好的服务器？调试工作应该集中在哪里？

下面是我收集的一些数据，用于查看系统在三个状态中的每一个状态下从sar和page-types工具中执行的操作。

软件： - debian jessie - linux 4.9.25 - elasticsearch 5.3.2 - openjdk 1.8.0_141

首先是来自性能良好的服务器的一些页面错误数据（来自sar -B）：

07:55:01 PM  pgpgin/s pgpgout/s   fault/s  majflt/s  pgfree/s pgscank/s pgscand/s pgsteal/s    %vmeff
08:05:01 PM   3105.89    811.60   2084.40     48.16   3385.30      0.00      0.00    810.35      0.00
08:15:01 PM   4317.65    665.28    910.29     57.03   3160.14      0.00      0.00   1047.14      0.00
08:25:01 PM   3132.84    648.48    868.41     50.00   2899.14      0.00      0.00    801.27      0.00
08:35:01 PM   2940.02   1026.47   2031.69     45.26   3418.65      0.00      0.00    764.05      0.00
08:45:01 PM   2985.72   1011.27    744.34     45.78   2796.54      0.00      0.00    817.23      0.00
08:55:01 PM   2970.14    588.34    858.08     47.65   2852.33      0.00      0.00    749.17      0.00
09:05:01 PM   3489.23   2364.78   2121.48     47.13   3945.93      0.00      0.00   1145.02      0.00
09:15:01 PM   2695.48    594.57    858.56     44.57   2616.84      0.00      0.00    624.13      0.00

Run Code Online (Sandbox Code Playgroud)

这是性能不佳的服务器之一：

07:55:01 PM  pgpgin/s pgpgout/s   fault/s  majflt/s  pgfree/s pgscank/s pgscand/s pgsteal/s    %vmeff
08:05:01 PM 268547.64   1223.73   5266.73    503.12  71836.18      0.00      0.00  67170.50      0.00
08:15:01 PM 279865.31    944.04   3995.52    520.17  74231.90      0.00      0.00  70000.23      0.00
08:25:01 PM 265806.75    966.55   3747.43    499.45  70443.49      0.00      0.00  66407.62      0.00
08:35:01 PM 251820.93   1831.04   4689.62    475.43  67445.29      0.00      0.00  63056.35      0.00
08:45:01 PM 236055.04   1022.32   3498.37    449.37  62955.37      0.00      0.00  59042.16      0.00
08:55:01 PM 239478.40    971.98   3523.61    451.76  63856.04      0.00      0.00  59953.38      0.00
09:05:01 PM 232213.81   1058.04   4436.75    437.09  62194.61      0.00      0.00  58100.47      0.00
09:15:01 PM 216433.72    911.94   3192.28    413.23  57737.62      0.00      0.00  54126.78      0.00

Run Code Online (Sandbox Code Playgroud)

我怀疑这是由于页面回收的 LRU 部分性能不佳。如果我运行while true; do echo 1 > /proc/sys/vm/drop_caches; sleep 30; done，它会删除所有非 mmaped 页面，磁盘 io 将出现初始峰值，但大约 30 分钟后它会稳定下来。我在所有服务器上运行了大约 48 小时，以验证它在每日峰值负载和低点下显示相同的 IO 减少。它做了。Sar 现在报告以下内容：

12:55:01 PM  pgpgin/s pgpgout/s   fault/s  majflt/s  pgfree/s pgscank/s pgscand/s pgsteal/s    %vmeff
01:05:01 PM 121327.14   1482.09   2277.40    140.25  32781.26      0.00      0.00   1764.61      0.00
01:15:01 PM 109911.39   1334.51   1057.51    130.53  31095.68      0.00      0.00   1121.39      0.00
01:25:01 PM 126500.69   1652.51   1216.76    143.07  35830.38      0.00      0.00   2801.84      0.00
01:35:01 PM 132669.45   1857.62   2309.86    148.47  36735.79      0.00      0.00   3181.19      0.00
01:45:01 PM 126872.04   1451.94   1062.94    145.68  34678.26      0.00      0.00    992.60      0.00
01:55:01 PM 121002.21   1818.32   1142.16    139.40  34168.53      0.00      0.00   1640.18      0.00
02:05:01 PM 121824.18   1260.22   2319.56    142.80  33254.67      0.00      0.00   1738.25      0.00
02:15:02 PM 120768.12   1100.87   1143.36    140.20  34195.15      0.00      0.00   1702.83      0.00

Run Code Online (Sandbox Code Playgroud)

主要页面错误已减少到先前值的 1/3。从磁盘带入的页面减少了一半。这将磁盘 IO 从 ~200MB/s 减少到 ~100MB/s，但性能良好的服务器仍然明显优于它们，只有 50 个主要故障/s，并且只需要执行 ~10MB/s 的磁盘 io。

为了了解 LRU 算法的工作原理，我使用了内核中的页面类型工具。这是一个表现良好的服务器（来自page-types | awk '$3 > 1000 { print $0 }' | sort -nk3）：

             flags      page-count       MB  symbolic-flags                     long-symbolic-flags
0x0000000000000828          257715     1006  ___U_l_____M______________________________ uptodate,lru,mmap
0x0000000000000080          259789     1014  _______S__________________________________ slab
0x000000000000006c          279344     1091  __RU_lA___________________________________ referenced,uptodate,lru,active
0x0000000000000268          305744     1194  ___U_lA__I________________________________ uptodate,lru,active,reclaim
0x0000000000100000          524288     2048  ____________________n_____________________ nopage
0x000000000000082c          632704     2471  __RU_l_____M______________________________ referenced,uptodate,lru,mmap
0x0000000000000000          763312     2981  __________________________________________
0x0000000000000068         2108618     8236  ___U_lA___________________________________ uptodate,lru,active
0x000000000000086c         6987343    27294  __RU_lA____M______________________________ referenced,uptodate,lru,active,mmap
0x0000000000005868         8589411    33552  ___U_lA____Ma_b___________________________ uptodate,lru,active,mmap,anonymous,swapbacked
0x0000000000000868        12513737    48881  ___U_lA____M______________________________ uptodate,lru,active,mmap
             total        34078720   133120

Run Code Online (Sandbox Code Playgroud)

这是一个性能不佳的服务器：

             flags      page-count       MB  symbolic-flags                     long-symbolic-flags
0x0000000000100000          262144     1024  ____________________n_____________________ nopage
0x0000000000000828          340276     1329  ___U_l_____M______________________________ uptodate,lru,mmap
0x000000000000086c          515691     2014  __RU_lA____M______________________________ referenced,uptodate,lru,active,mmap
0x0000000000000028          687263     2684  ___U_l____________________________________ uptodate,lru
0x0000000000000000          785662     3068  __________________________________________
0x0000000000000868         7946840    31042  ___U_lA____M______________________________ uptodate,lru,active,mmap
0x0000000000005868         8588629    33549  ___U_lA____Ma_b___________________________ uptodate,lru,active,mmap,anonymous,swapbacked
0x0000000000000068        14133541    55209  ___U_lA___________________________________ uptodate,lru,active
             total        33816576   132096

Run Code Online (Sandbox Code Playgroud)

这是循环 drop_caches 命令时的样子：

             flags      page-count       MB  symbolic-flags                     long-symbolic-flags
0x0000000000100000          262144     1024  ____________________n_____________________ nopage
0x0000000000000400          394790     1542  __________B_______________________________ buddy
0x0000000000000000          761557     2974  __________________________________________
0x0000000000000868         1451890     5671  ___U_lA____M______________________________ uptodate,lru,active,mmap
0x000000000000082c         3123142    12199  __RU_l_____M______________________________ referenced,uptodate,lru,mmap
0x0000000000000828         5278755    20620  ___U_l_____M______________________________ uptodate,lru,mmap
0x0000000000005868         8622864    33683  ___U_lA____Ma_b___________________________ uptodate,lru,active,mmap,anonymous,swapbacked
0x000000000000086c        13630124    53242  __RU_lA____M______________________________ referenced,uptodate,lru,active,mmap
             total        33816576   132096

Run Code Online (Sandbox Code Playgroud)

尝试的事情：

将 /proc/sys/vm/vfs_cache_pressure 增加到 150 到 10000 之间的各种值。这对 IO 或报告的数据没有影响 page-types，这是有道理的，因为这平衡了内核结构与用户页面，而我的问题是不同的用户页面
增加 /proc/sys/vm/swappiness。没想到这会做任何事情，它没有，但检查起来并没有什么坏处。
禁用 mmap（而不是使用基于 epoll 的 java 的 nio）。这立即使服务器的 IO 使用在 IO 使用方面看起来就像表现良好的那些。这里的缺点是系统 cpu % 与发生的 IO 数量有关，10MB/s 占用约 1.5%，偶尔负载高达约 100MB/s 的磁盘 io 看到系统 cpu % 为 5 到 10%。在 1.5 到 3 个 CPU 完全用于处理 epoll 的 32 核服务器上。nio 的延迟也更糟（与表现良好的 mmap 服务器相比）。这是一个看似合理的解决方案，但它是一种逃避，不了解实际出了什么问题。
该perf工具花费了无数个小时来查看堆栈跟踪、火焰图并寻找内核行为的差异。获得的见解很少。
检查的磁盘预读设置在服务器之间是相同的。性能不佳的服务器上的 raid0 默认为 2048 块，性能良好的服务器上的 raid0 默认为 256 块。将性能不佳的服务器更新到 256blockdev --setra对 IO 行为没有影响。
启动 jvmnumactl --interleave=all以确保问题与两个 numa 节点之间的平衡无关。没什么区别。
验证vmtouch，它基本上用于mincore(2)询问内核是否缓存了文件，99% 以上的缓冲内存用于文件系统 elasticsearch 存储其数据。在上述所有 3 种情况下都是如此。
经验证fuser -m，elasticsearch 是唯一使用文件系统上的文件的进程，elasticsearch 将其数据存储在其中。

马上测试：

下周我将重新配置其中一台行为不端的服务器，但我并不乐观这会产生多大影响。在此配置期间，我还更新了 raid 阵列以将 LVM 放在它前面。不要期望与 LVM 有任何不同，但删除变量似乎是值得的。

Answer 1

Eri*_*k B 3

这最终导致磁盘预读过于激进。性能良好的服务器预读了 128 kB。性能较差的服务器预读了 2 mB。无法查明预读为何不同，但最可能的原因是新机器在软件 raid 之前有 LVM，而旧机器直接与软件 raid 通信。

虽然我的问题表明我最初确实检查了预读，注意到了差异，并在其中一台服务器上更新了它，但 mmap 和预读之间的交互并不是那么直接。具体来说，当文件被 mmap 时，Linux 内核会将预读设置从磁盘复制到有关该 mmap 文件的结构中。更新预读设置不会更新该结构。因此，更新的预读直到保持文件打开的守护进程重新启动后才会生效。

减少预读并在性能较差的服务器上重新启动守护进程，可以立即使磁盘读取与性能良好的服务器保持一致，并立即减少 IO 等待和尾部延迟。

归档时间：	8 年，6 月前
查看次数：	496 次
最近记录：	8 年，3 月前