+200 个并发连接后 NGINX 超时

Gaj*_*jus 13 linux nginx centos concurrency

这是我的nginx.conf(我已经更新了配置以确保没有涉及 PHP 或任何其他瓶颈):

user                nginx;
worker_processes    4;
worker_rlimit_nofile 10240;

pid                 /var/run/nginx.pid;

events
{
    worker_connections  1024;
}

http
{
    include             /etc/nginx/mime.types;

    error_log           /var/www/log/nginx_errors.log warn;

    port_in_redirect    off;
    server_tokens       off;
    sendfile            on;
    gzip                on;

    client_max_body_size 200M;

    map $scheme $php_https { default off; https on; }

    index index.php;

    client_body_timeout   60;
    client_header_timeout 60;
    keepalive_timeout     60 60;
    send_timeout          60;

    server
    {
        server_name dev.anuary.com;

        root        "/var/www/virtualhosts/dev.anuary.com";
    }
}
Run Code Online (Sandbox Code Playgroud)

我正在使用http://blitz.io/play来测试我的服务器(我购买了 10 000 个并发连接计划)。在 30 秒的运行中,我得到了964点击和5,587 timeouts. 第一次超时发生在测试开始的 40.77 秒时,并发用户数为 200。

测试过程中,服务器负载为(top输出):

 PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                               20225 nginx     20   0 48140 6248 1672 S 16.0  0.0   0:21.68 nginx                                                                  
    1 root      20   0 19112 1444 1180 S  0.0  0.0   0:02.37 init                                                                   
    2 root      20   0     0    0    0 S  0.0  0.0   0:00.00 kthreadd                                                               
    3 root      RT   0     0    0    0 S  0.0  0.0   0:00.03 migration/0      
Run Code Online (Sandbox Code Playgroud)

因此这不是服务器资源问题。之后怎么样了?

更新 2011 年 12 月 9 日格林威治标准时间 17:36。

到目前为止,我做了以下更改以确保瓶颈不是 TCP/IP。添加到/etc/sysctl.conf

# These ensure that TIME_WAIT ports either get reused or closed fast.
net.ipv4.tcp_fin_timeout = 1
net.ipv4.tcp_tw_recycle = 1
# TCP memory
net.core.rmem_max = 16777216
net.core.rmem_default = 16777216
net.core.netdev_max_backlog = 262144
net.core.somaxconn = 4096

net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_max_orphans = 262144
net.ipv4.tcp_max_syn_backlog = 262144
net.ipv4.tcp_synack_retries = 2
net.ipv4.tcp_syn_retries = 2
Run Code Online (Sandbox Code Playgroud)

更多调试信息:

[root@server node]# ulimit -a
core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 126767
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 1024
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 10240
cpu time               (seconds, -t) unlimited
max user processes              (-u) 1024
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited
Run Code Online (Sandbox Code Playgroud)

注意worker_rlimit_nofile设置为10240nginx 配置。

更新 2011 年 12 月 9 日格林威治标准时间 19:02。

看起来我做的更改越多,情况就越糟,但这里是新的配置文件。

user                nginx;
worker_processes    4;
worker_rlimit_nofile 10240;

pid                 /var/run/nginx.pid;

events
{
    worker_connections  2048;
    #1,353 hits, 2,751 timeouts, 72 errors - Bummer. Try again?
    #1,408 hits, 2,727 timeouts - Maybe you should increase the timeout?
}

http
{
    include             /etc/nginx/mime.types;

    error_log           /var/www/log/nginx_errors.log warn; 

    # http://blog.martinfjordvald.com/2011/04/optimizing-nginx-for-high-traffic-loads/
    access_log              off;

    open_file_cache         max=1000;
    open_file_cache_valid   30s;

    client_body_buffer_size 10M;
    client_max_body_size    200M;

    proxy_buffers           256 4k;
    fastcgi_buffers         256 4k;

    keepalive_timeout       15 15;

    client_body_timeout     60;
    client_header_timeout   60;

    send_timeout            60;

    port_in_redirect        off;
    server_tokens           off;
    sendfile                on;

    gzip                    on;
    gzip_buffers            256 4k;
    gzip_comp_level         5;
    gzip_disable            "msie6";



    map $scheme $php_https { default off; https on; }

    index index.php;



    server
    {
        server_name ~^www\.(?P<domain>.+);
        rewrite     ^ $scheme://$domain$request_uri? permanent;
    }

    include /etc/nginx/conf.d/virtual.conf;
}
Run Code Online (Sandbox Code Playgroud)

更新 2011 年 12 月 11 日格林威治标准时间 20:11。

这是netstat -ntla测试期间的输出。

https://gist.github.com/d74750cceba4d08668ea

更新 2011 年 12 月 12 日格林威治标准时间 10:54。

只是为了澄清,iptables(防火墙)在测试时关闭。

更新 2011 年 12 月 12 日格林威治标准时间 22:47。

这是sysctl -p | grep mem垃圾场。

net.ipv4.ip_forward = 0
net.ipv4.conf.default.rp_filter = 1
net.ipv4.conf.default.accept_source_route = 0
kernel.sysrq = 0
kernel.core_uses_pid = 1
net.ipv4.tcp_syncookies = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.shmmax = 68719476736
kernel.shmall = 4294967296
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 30
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_mem = 8388608 8388608 8388608
net.ipv4.tcp_rmem = 4096 87380 8388608
net.ipv4.tcp_wmem = 4096 65536 8388608
net.ipv4.route.flush = 1
net.ipv4.ip_local_port_range = 1024 65000
net.core.rmem_max = 16777216
net.core.rmem_default = 16777216
net.core.wmem_max = 8388608
net.core.wmem_default = 65536
net.core.netdev_max_backlog = 262144
net.core.somaxconn = 4096
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_max_orphans = 262144
net.ipv4.tcp_max_syn_backlog = 262144
net.ipv4.tcp_synack_retries = 2
net.ipv4.tcp_syn_retries = 2
Run Code Online (Sandbox Code Playgroud)

更新 2011 年 12 月 12 日格林威治标准时间 22:49

blitz.io用来运行所有测试。我正在测试的 URL 是http://dev.anuary.com/test.txt,使用以下命令:--region ireland --pattern 200-250:30 -T 1000 http://dev.anuary.com/test.txt

更新 2011 年 12 月 13 日格林威治标准时间 13:33

nginx用户限制(在 中设置/etc/security/limits.conf)。

nginx       hard nofile 40000
nginx       soft nofile 40000
Run Code Online (Sandbox Code Playgroud)

jef*_*aid 2

您需要在测试期间转储网络连接。虽然服务器的负载可能接近于零,但您的 TCP/IP 堆栈可能会计费。在 netstat 输出中查找 TIME_WAIT 连接。

如果是这种情况,那么您将需要检查调整与 TCP 等待状态、TCP 回收和类似指标相关的 tcp/ip 内核参数。

另外,您还没有描述正在测试的内容。

我总是测试:

  • 静态内容(图像或文本文件)
  • 简单的 php 页面(例如 phpinfo)
  • 申请页面

这可能不适用于您的情况,但这是我在性能测试时所做的事情。测试不同类型的文件可以帮助您查明瓶颈。

即使对于静态内容,测试不同大小的文件对于获取超时和其他指标也很重要。

我们有一些静态内容 Nginx 盒子,可处理 3000 多个活动连接。所以Nginx肯定可以做到。

更新:您的 netstat 显示大量打开的连接。可能想要尝试调整您的 TCP/IP 堆栈。另外,你要什么文件?Nginx 应该快速关闭端口。

这是对 sysctl.conf 的建议:

net.ipv4.ip_local_port_range = 1024 65000
net.ipv4.tcp_rmem = 4096 87380 8388608
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 30
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_tw_reuse = 1
Run Code Online (Sandbox Code Playgroud)

这些值非常低,但我在高并发 Nginx 机器上使用它们取得了成功。