NGINX:在 access_log 中混淆密码

Rae*_*MAM 4 logging nginx nginx-location nginx-config

我想登录$request_body访问日志。

但是一些请求有一些敏感的 JSON 字段,如密码。

例子:

[2019-03-28] 201 - POST /api/user/add HTTP/1.1 - {\x22email\x22:\x22test@test.com\x22,\x22password\x22:\x22myPassword\x22}
Run Code Online (Sandbox Code Playgroud)

有没有办法混淆密码值,使输出看起来像这样:

[2019-03-28] 201 - POST /api/user/add HTTP/1.1 - {\x22email\x22:\x22test@test.com\x22,\x22password\x22:\x22****\x22}
Run Code Online (Sandbox Code Playgroud)

Iva*_*sky 7

这里有一些正则表达式模式,可用于混淆各种格式的请求正文数据。

当然,您需要做的第一件事是使用log_format指令将混淆数据添加到日志文件行格式中:

log_format custom '$remote_addr - $remote_user [$time_local] '
                    '"$request" "$obfuscated_request_body" $status $body_bytes_sent '
                    '"$http_referer" "$http_user_agent"';
Run Code Online (Sandbox Code Playgroud)

我们来看看下面的 post body 数据格式(假设我们需要混淆的字段是password)。

  • 请求正文是一个 JSON 字符串(典型的 REST API 请求)

JSON 示例:

{"email":"test@test.com","password":"myPassword"}
Run Code Online (Sandbox Code Playgroud)

转义的 JSON 字符串:

{\x22email\x22:\x22test@test.com\x22,\x22password\x22:\x22myPassword\x22}
Run Code Online (Sandbox Code Playgroud)

nginxmap块:

map $request_body $obfuscated_request_body {
    "~(.*[{,]\\x22password\\x22:\\x22).*?(\\x22[,}].*)" $1********$2;
    default $request_body;
}
Run Code Online (Sandbox Code Playgroud)
  • 请求体是一个namevalue对的 JSON 数组(由 jQueryserializeArray()函数返回)

JSON 示例:

[{"name":"email","value":"test@test.com"},{"name":"password","value":"myPassword"}]
Run Code Online (Sandbox Code Playgroud)

转义的 JSON 字符串:

[{\x22name\x22:\x22email\x22,\x22value\x22:\x22test@test.com\x22},{\x22name\x22:\x22password\x22,\x22value\x22:\x22myPassword\x22}]
Run Code Online (Sandbox Code Playgroud)

nginxmap块:

map $request_body $obfuscated_request_body {
    "~(.*[\[,]{\\x22name\\x22:\\x22password\\x22,\\x22value\\x22:\\x22).*?(\\x22}[,\]].*)" $1********$2;
    default $request_body;
}
Run Code Online (Sandbox Code Playgroud)
  • 请求正文是一个 urlencoded 字符串(由带有 的 HTML 表单提交enctype="application/x-www-form-urlencoded"

POST 正文示例:

login=test%40test.com&password=myPassword
Run Code Online (Sandbox Code Playgroud)

nginxmap块: nginxmap块:

map $request_body $obfuscated_request_body {
    ~(^|.*&)(password=)[^&]*(&.*|$) $1$2********$3;
    default $request_body;
}
Run Code Online (Sandbox Code Playgroud)

如果您需要混淆多个数据字段,您可以链接多个map转换:

log_format custom '$remote_addr - $remote_user [$time_local] '
                  '"$request" "$obfuscated_request_body_2" $status $body_bytes_sent '
                  '"$http_referer" "$http_user_agent"';

map $request_body $obfuscated_request_body_1 {
    "~(.*[{,]\\x22password\\x22:\\x22).*?(\\x22[,}].*)" $1********$2;
    default $request_body;
}

map $obfuscated_request_body_1 $obfuscated_request_body_2 {
    "~(.*[{,]\\x22email\\x22:\\x22).*?(\\x22[,}].*)" $1********$2;
    default $request_body;
}
Run Code Online (Sandbox Code Playgroud)

所有给定的正则表达式只能escape=defaultlog_formatnginx 指令的转义模式下工作!如果由于某种原因您需要将此模式更改为escape=json(从 nginx 1.11.8 可用)或escape=none(从 nginx 1.13.10 可用),我也为这种转义模式构建了正则表达式,但由于某些奇怪的原因,它们无法正常工作使用 nginx 直到指定pcre_jit on;指令(尽管它们通过了其他 PCRE 测试)。对于那些感兴趣的人,这些正则表达式是

  • 对于escape=json转义模式:
map $request_body $obfuscated_request_body {
    "~(.*[{,]\\\"password\\\":\\\")(?:[^\\]|\\{3}\"|\\{2}[bfnrt]|\\{4})*(\\\"[,}].*)" $1********$2;
    default $request_body;
}
Run Code Online (Sandbox Code Playgroud)

对于 JSON 字符串,以及

map $request_body $obfuscated_request_body {
    "~(.*[\[,]{\\\"name\\\":\\\"password\\\",\\\"value\\\":\\\")(?:[^\\]|\\{3}\"|\\{2}[bfnrt]|\\{4})*(\\\"}[,\]].*)" $1********$2;
    default $request_body;
}
Run Code Online (Sandbox Code Playgroud)

对于namevalue对的JSON 数组。

  • 对于escape=none转义模式:
map $request_body $obfuscated_request_body {
    "~(.*[{,]\"password\":\")(?:[^\\\"]|\\.)*(\"[,}].*)' $1********$2;
    default $request_body;
}
Run Code Online (Sandbox Code Playgroud)

对于 JSON 字符串,以及

map $request_body $obfuscated_request_body {
    "~(.*[\[,]{\"name\":\"password\",\"value\":\")(?:[^\\\"]|\\.)*(\"}[,\]].*)" $1********$2;
    default $request_body;
}
Run Code Online (Sandbox Code Playgroud)

对于namevalue对的JSON 数组。

奖励 - 混淆 GET 请求查询参数

有时人们还需要混淆作为 GET 请求查询参数传递的数据。要做到这一点,同时保留原始的 nginx 访问日志格式,让我们先看看默认的访问日志格式:

log_format combined '$remote_addr - $remote_user [$time_local] '
                    '"$request" $status $body_bytes_sent '
                    '"$http_referer" "$http_user_agent"';
Run Code Online (Sandbox Code Playgroud)

nginx 内置$request变量可以表示为$request_method $request_uri $server_protocol变量序列:

log_format combined '$remote_addr - $remote_user [$time_local] '
                    '"$request_method $request_uri $server_protocol" $status $body_bytes_sent '
                    '"$http_referer" "$http_user_agent"';
Run Code Online (Sandbox Code Playgroud)

我们需要混淆部分$request_uri变量数据:

log_format custom '$remote_addr - $remote_user [$time_local] '
                  '"$request_method $obfuscated_request_uri $server_protocol" $status $body_bytes_sent '
                  '"$http_referer" "$http_user_agent"';

map $request_uri $obfuscated_request_uri {
    ~(.+\?)(.*&)?(password=)[^&]*(&.*|$) $1$2$3********$4;
    default $request_uri;
}
Run Code Online (Sandbox Code Playgroud)

要混淆多个查询参数,您可以链接多个map翻译,如上所示。

更新 - 安全注意事项

Alvin Thompson评论了 OP 的问题,提到了一些攻击向量,比如非常大的压缩请求。值得一提的是,nginx 会以压缩形式“按原样”记录这些请求,因此日志文件不会以不可预测的方式增长。

假设我们的日志文件具有以下格式:

log_format debug '$remote_addr - $remote_user [$time_local] '
                 '"$request" $request_length $content_length '
                 '"$request_body" $status $body_bytes_sent '
                 '"$http_referer" "$http_user_agent"';
Run Code Online (Sandbox Code Playgroud)

带有 5,000 个空格的 gzip 正文的请求将被记录为

127.0.0.1 - - [09/Feb/2020:05:27:41 +0200] "POST /dump.php HTTP/1.1" 193 41 "\x1F\x8B\x08\x00\x00\x00\x00\x00\x00\x0B\xED\xC11\x01\x00\x00\x00\xC2\xA0*\xEB\x9F\xD2\x14~@\x01\x00\x00\x00\x00o\x03`,\x0B\x87\x88\x13\x00\x00" 200 6881 "-" "curl/7.62.0"
Run Code Online (Sandbox Code Playgroud)

正如可以看到,$request_length$content_length值(193和41)反映了输入数据的来自客户机的长度和经解压缩的数据流的字节计数。

为了过滤异常大的未压缩请求,您还可以按长度过滤请求体:

map $content_length $processed_request_body {
    # Here are some regexes for log filtering by POST body maximum size
    # (only one should be used at a time)

    # Content length value is 4 digits or more ($request_length > 999)
    "~(.*\d{4})" "Too big (request length $1 bytes)";

    # Content length > 499
    "~^((?:[5-9]|\d{2,})\d{2})" "Too big (request length $1 bytes)";

    # Content length > 2999
    "~^((?:[3-9]|\d{2,})\d{3})" "Too big (request length $1 bytes)";

    default $request_body;
}

map $processed_request_body $obfuscated_request_body {
    ...
    default $processed_request_body;
}
Run Code Online (Sandbox Code Playgroud)