Dem*_*emi 52 c# python compression zlib
我正在与服务器连接,该服务器要求发送给它的数据使用Deflate算法(Huffman编码+ LZ77)进行压缩,并且还发送我需要的数据以进行Inflate.
我知道Python包含Zlib,并且Zlib中的C库支持对Inflate和Deflate的调用,但这些显然不是由Python Zlib模块提供的.它提供压缩和解压,但是当我拨打电话,如下列:
result_data = zlib.decompress( base64_decoded_compressed_string )
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
Error -3 while decompressing data: incorrect header check
Run Code Online (Sandbox Code Playgroud)
Gzip并没有更好; 在打电话时如:
result_data = gzip.GzipFile( fileobj = StringIO.StringIO( base64_decoded_compressed_string ) ).read()
Run Code Online (Sandbox Code Playgroud)
我收到错误:
IOError: Not a gzipped file
Run Code Online (Sandbox Code Playgroud)
这是有道理的数据是平减文件不是真正的Gzip压缩文件.
现在我知道有一个Deflate实现可用(Pyflate),但我不知道Inflate的实现.
似乎有几个选择:
我正在寻求解决方案,但缺乏解决方案,我将感谢见解,建设性意见和想法.
附加信息:为了我需要的目的,放松(和编码)字符串的结果应该与下面的C#代码片段给出相同的结果,其中输入参数是与要压缩的数据相对应的UTF字节数组:
public static string DeflateAndEncodeBase64(byte[] data)
{
if (null == data || data.Length < 1) return null;
string compressedBase64 = "";
//write into a new memory stream wrapped by a deflate stream
using (MemoryStream ms = new MemoryStream())
{
using (DeflateStream deflateStream = new DeflateStream(ms, CompressionMode.Compress, true))
{
//write byte buffer into memorystream
deflateStream.Write(data, 0, data.Length);
deflateStream.Close();
//rewind memory stream and write to base 64 string
byte[] compressedBytes = new byte[ms.Length];
ms.Seek(0, SeekOrigin.Begin);
ms.Read(compressedBytes, 0, (int)ms.Length);
compressedBase64 = Convert.ToBase64String(compressedBytes);
}
}
return compressedBase64;
}
Run Code Online (Sandbox Code Playgroud)
为字符串"deflate and encode me"运行此.NET代码会得到结果
7b0HYBxJliUmL23Ke39K9UrX4HShCIBgEyTYkEAQ7MGIzeaS7B1pRyMpqyqBymVWZV1mFkDM7Z28995777333nvvvfe6O51OJ/ff/z9cZmQBbPbOStrJniGAqsgfP358Hz8iZvl5mbV5mi1nab6cVrM8XeT/Dw==
Run Code Online (Sandbox Code Playgroud)
当"deflate and encode me"通过Python Zlib.compress()然后运行base64编码时,结果是"eJxLSU3LSSxJVUjMS1FIzUvOT0lVyE0FAFXHB6k =".
很明显,zlib.compress()不是与标准Deflate算法相同算法的实现.
更多信息:
在b64解码之后,.NET deflate数据的前2个字节("7b0HY ...")是0xEDBD,它不对应于Gzip数据(0x1f8b),BZip2(0x425A)数据或Zlib(0x789C)数据.
在b64解码之后,Python压缩数据的前2个字节("eJxLS ...")是0x789C.这是一个Zlib标题.
解决了
要处理原始deflate和inflate,没有头和校验和,需要执行以下操作:
在deflate/compress上:剥离前两个字节(标题)和最后四个字节(校验和).
膨胀/解压缩:窗口大小有第二个参数.如果此值为负,则会抑制标题.这是我目前的方法,包括base64编码/解码 - 并正常工作:
import zlib
import base64
def decode_base64_and_inflate( b64string ):
decoded_data = base64.b64decode( b64string )
return zlib.decompress( decoded_data , -15)
def deflate_and_base64_encode( string_val ):
zlibbed_str = zlib.compress( string_val )
compressed_string = zlibbed_str[2:-4]
return base64.b64encode( compressed_string )
Run Code Online (Sandbox Code Playgroud)
Mar*_*rot 22
您仍然可以使用该zlib模块来膨胀/收缩数据.该gzip模块在内部使用它,但添加了一个文件头,使其成为一个gzip文件.查看gzip.py文件,这样的东西可以工作:
import zlib
def deflate(data, compresslevel=9):
compress = zlib.compressobj(
compresslevel, # level: 0-9
zlib.DEFLATED, # method: must be DEFLATED
-zlib.MAX_WBITS, # window size in bits:
# -15..-8: negate, suppress header
# 8..15: normal
# 16..30: subtract 16, gzip header
zlib.DEF_MEM_LEVEL, # mem level: 1..8/9
0 # strategy:
# 0 = Z_DEFAULT_STRATEGY
# 1 = Z_FILTERED
# 2 = Z_HUFFMAN_ONLY
# 3 = Z_RLE
# 4 = Z_FIXED
)
deflated = compress.compress(data)
deflated += compress.flush()
return deflated
def inflate(data):
decompress = zlib.decompressobj(
-zlib.MAX_WBITS # see above
)
inflated = decompress.decompress(data)
inflated += decompress.flush()
return inflated
Run Code Online (Sandbox Code Playgroud)
我不知道这是否完全符合您的服务器要求,但这两个函数能够往返我试过的任何数据.
参数直接映射到传递给zlib库函数的内容.
Python的 ⇒ ç
zlib.compressobj(...) ⇒ deflateInit(...)
compressobj.compress(...)⇒ deflate(...)
zlib.decompressobj(...)⇒ inflateInit(...)
decompressobj.decompress(...)⇒inflate(...)
构造函数创建结构并使用默认值填充它,并将其传递给init函数.的compress/ decompress方法更新结构,并将其传递到inflate/ deflate.
Joh*_*hin 21
这是MizardX的答案的附加组件,给出了一些解释和背景.
见http://www.chiramattel.com/george/blog/2007/09/09/deflatestream-block-length-does-not-match.html
根据RFC 1950,以默认方式构造的zlib流由以下组成:
C#DeflateStream可以(你猜对了)一个deflate流.MizardX的代码告诉zlib模块数据是原始的deflate流.
观察:(1)人们希望C#"通缩"方法产生更长的字符串只发生短输入(2)使用没有Adler-32校验和的原始deflate流?有点冒险,除非用更好的东西取而代之.
更新
错误信息 Block length does not match with its complement
如果您尝试使用C#对某些压缩数据进行充气DeflateStream并获得该消息,那么您很可能会给它一个zlib流,而不是一个deflate流.
同时将错误消息复制/粘贴到Google搜索中,您将获得大量点击(包括此答案前面的点击),说的大致相同.
JavaDeflater ...用于"网站"... C#DeflateStream"非常简单,已针对Java实现进行了测试".该网站使用以下哪种可能的Java Deflater构造函数?
public Deflater(int level, boolean nowrap)使用指定的压缩级别创建新的压缩器.如果'nowrap'为真,那么将不使用ZLIB头和校验和字段以支持GZIP和PKZIP中使用的压缩格式.
public Deflater(int level)使用指定的压缩级别创建新的压缩器.压缩数据将以ZLIB格式生成.
public Deflater()使用默认压缩级别创建新压缩器.压缩数据将以ZLIB格式生成.
扔掉2字节zlib头和4字节校验和后的单行deflater:
uncompressed_string.encode('zlib')[2:-4] # does not work in Python 3.x
Run Code Online (Sandbox Code Playgroud)
要么
zlib.compress(uncompressed_string)[2:-4]
Run Code Online (Sandbox Code Playgroud)