用pako(javascript中的zlib)压缩,用zlib(python)解压不起作用

har*_*iom 1 javascript python unicode zlib utf-8

使用 pako( https://github.com/nodeca/pako ) Pako在 javascript 中进行压缩的代码。它压缩字符串 't'

var compressedString = pako.gzip('t', {level: 4, to: 'string'}));
$.ajax('/decompress', {string: compressedString})
Run Code Online (Sandbox Code Playgroud)

/decompress 执行解压的代码

from cgi import parse_qs, escape
import json
import zlib
def application(environ, start_response):
    status = '200 OK'
    try:
        request_body_size = int(environ.get('CONTENT_LENGTH', 0))
    except (ValueError):
        request_body_size = 0
    request_body = environ['wsgi.input'].read(request_body_size)
    d = parse_qs(request_body)

    response_headers = [('Content-type', 'text/plain')]
    start_response(status, response_headers)
    inputString = d.get('string')[0]
    # Use same wbits(=31) as used by pako
    decompressed = zlib.decompress(inputString, 31);
    return 'done'
Run Code Online (Sandbox Code Playgroud)

进行解压会引发以下错误。zlib.decompress 行发生错误。

错误:解压缩数据时出错 -3:不正确的标头检查

我还尝试对 inputString(

inputString.encode('utf-8')

) 但它也会抛出错误。

bob*_*nce 5

to: 'string'
Run Code Online (Sandbox Code Playgroud)

此选项String通过将每个字节映射到具有相同编号的字符,将输出字节序列走私到 JS (Unicode) 中。(这等效于使用 ISO-8859-1 编码进行解码。)

$.ajax('/decompress', {string: compressedString})
Run Code Online (Sandbox Code Playgroud)

XMLHttpRequest 需要将 (Unicode) 字符串值编码回字节序列以通过网络传输(URL 编码)。它使用的编码是 UTF-8,而不是 ISO-8859-1,因此网络上的字节序列与 GZip 压缩器输出的字节序列不同。

您可以通过在 URL 解码步骤后重新编码在 Python 端撤消此过程:

d = parse_qs(request_body).decode('utf-8').encode('iso-8859-1')
Run Code Online (Sandbox Code Playgroud)

现在您应该拥有与压缩器输出相同的字节序列。

将字节作为 UTF-8 编码的代码点发送,并对其中的非 ASCII 字节进行 URL 编码,将使网络流量膨胀到原始字节占用的大约四倍,这反而会破坏压缩。

如果您只是将数据字符串作为请求正文单独发布到 Python 脚本,您可能会丢失 URL 编码,然后您的请求将仅(!)比原始压缩数据多 50%。要做得更好,您需要开始考虑将原始字节直接作为 ByteArray发送,或者使用 multipart form-data。无论哪种方式都存在浏览器兼容性问题。