解析帝国时代的游戏记录文件(.mgx)

lic*_*eng 8 python binaryfiles zlib inflate

我是过时的帝国时代II(AoE)游戏的粉丝.我想用Python编写AoE游戏记录(.mgx文件)的解析器.

我在GitHub上做了一些搜索并发现了很少的项目,最有用的是aoc-mgx格式,它提供.mgx游戏记录文件的一些细节.

这是问题所在:

根据参考文献,.mgx文件的结构如下:

| header_len(4byte int)| next_pos(4byte int)| header_data | ...... |

十六进制数据的mgx格式的字节顺序是小端.

header_len存储Header部分的数据长度(header_len + next_post + header_data)

header_data存储我需要的有用信息,但它用zlib压缩

我试图用zlib模块解压缩header_data中的数据,如下所示:

import struct
import zlib

with open('test.mgx', "rb") as fp:
    # read the header_len bytes and covert it to a int reprents length of Header part
    header_len = struct.unpack("<i", fp.read(4))[0]

    # read next_pos (this is not important for me)
    next_pos = struct.unpack("<i", fp.read(4))[0]

    # then I can get data length of header_data part(compressed with zlib)
    header_data_len = header_len - 8

    compressed_data = fp.read(header_data_len)[::-1] # need to be reversed because byte order is little endian?

    try:
        zlib.decompress(compressed_data)
        print "can be decompressed!"
    except zlib.error as e:
        print e.message
Run Code Online (Sandbox Code Playgroud)

但是我在运行程序后得到了这个:

解压缩数据时出错-3:错误的标题检查

ps:示例.mgx文件可以在这里找到:https://github.com/stefan-kolb/aoc-mgx-format/tree/master/parser/recs

aba*_*ert 5

您的第一个问题是您不应该反转数据;只要摆脱[::-1].

但是如果你这样做,而不是得到那个错误 -3,你会得到一个不同的错误 -3,通常是关于未知的压缩方法。

问题是这是无头的zlib 数据,很像 gzip 使用的数据。理论上,这意味着关于压缩方法、窗口、开始字典等的信息必须在文件的其他地方提供(在 gzip 的情况下,通过 gzip 标头中的信息)。但在实践中,每个人都使用最大窗口大小的 deflate 并且没有开始字典,所以如果我在每个字节都计算的时代为游戏设计紧凑的格式,我只会对它们进行硬编码。(在现代,RFC 中确切地将其标准化为“DEFLATE 压缩数据格式”,但大多数 90 年代的 PC 游戏在设计上并未遵循 RFC...)

所以:

>>> uncompressed_data = zlib.decompress(compressed_data, -zlib.MAX_WBITS)
>>> uncompressed_data[:8] # version
b'VER 9.8\x00'
>>> uncompressed_data[8:12] # unknown_const
b'\xf6(<A'
Run Code Online (Sandbox Code Playgroud)

所以,它不仅解压了,看起来像一个版本,而且……好吧,我猜任何东西看起来都像一个未知常量,但它在规范中是相同的未知常量,所以我认为我们很好。

正如decompress文档解释的那样,MAX_WBITS是默认/最常见的窗口大小(并且通常被称为“zlib deflate”而不是“zlib”使用的唯一大小),传递负值意味着标题被抑制;我们可以保留默认值的其他参数。

另请参阅此答案、文档中的高级功能部分zlibRFC 1951。(感谢 OP 找到链接。)