Google Cloud Bigtable压缩

Mat*_*ven 2 google-cloud-platform google-cloud-bigtable

我正在研究BigTable如何压缩我的数据.

我已经将1,5GB装入1张桌子; 大约500k行包含1列,平均每个单元格大约3kb.在进一步的测试中,将向包含具有相似大小的类似数据的这些行添加更多列.

每个单元格中的数据目前是一个JSON序列化的字典数组[平均10元],如:

[{
    "field1": "100.10",
    "field2": "EUR",
    "field3": "10000",
    "field4": "0",
    "field5": "1",
    "field6": "1",
    "field7": "0",
    "field8": "100",
    "field9": "110.20",
    "field10": "100-char field",
    "dateField1": "1970-01-01",
    "dateField2": "1970-01-01",
    "dateTimeField": "1970-01-01T10:10:10Z"
},{
    "field1": "200.20",
    "field2": "EUR",
    "field3": "10001",
    "field4": "0",
    "field5": "1",
    "field6": "0",
    "field7": "0",
    "field8": "100",
    "field9": "220.30",
    "field10": "100-char field",
    "dateField1": "1970-01-01",
    "dateField2": "1970-01-01",
    "dateTimeField": "1970-01-01T20:20:20Z"
}, ...]
Run Code Online (Sandbox Code Playgroud)

BigTable控制台向我显示集群保持1,2GB.因此它将我插入的1,5GB压缩到原始大小的大约80%.然而,当它们存储在单元中时对一个典型的字符串进行Gzipping但是给出了约20%的压缩比.

因此,Big Iable的压缩性能对我来说似乎很低,因为我插入的数据包含大量重复值(例如字典键).我理解BigTable的压缩速度,但我希望它能在我的数据上表现更好.

对于上述数据,压缩率是否为80%,或者预期值较低?除了重新构建我正在上传的数据之外,是否有任何改进压缩的技术?

谢谢!

Max*_*Max 5

绝对可以期待更低的价值.我们已经找到并修复了与Cloud Bigtable中使用压缩相关的错误,该错误现已投入生产.

对于您发布的示例等数据,您现在应该看到更高的压缩率和更低的磁盘使用率!

  • 谢谢.对于记录:此数据集的磁盘使用量现在为140 MB. (2认同)