如何在pytables中创建可以存储Unicode字符串的压缩数据集?

Jas*_*n S 6 python compression string unicode pytables

我正在使用PyTables存储一个数据数组,工作正常; 我需要存储一个包含JSON数据的中等大小(50K-100K)的Unicode字符串,我想压缩它.

我怎么能在PyTables中这样做?自从我使用HDF5以来已经很长时间了,我记不起存储字符数组的正确方法,因此它们可以被压缩.(我似乎无法在PyTables网站上找到类似的例子.)

Ant*_*atz 3

PyTables 本身还不支持 unicode。存储unicode。首先将字符串转换为字节,然后存储长度为 1 的字符串或 uint8 的 VLArray。Filters要获得压缩,只需使用具有非零 的实例实例化您的数组complevel

我所知道的所有像这样存储 JSON 数据的示例都是使用 HDF5 C-API 来实现的。