小编Mat*_*ven的帖子

Google Cloud Bigtable压缩

我正在研究BigTable如何压缩我的数据.

我已经将1,5GB装入1张桌子; 大约500k行包含1列,平均每个单元格大约3kb.在进一步的测试中,将向包含具有相似大小的类似数据的这些行添加更多列.

每个单元格中的数据目前是一个JSON序列化的字典数组[平均10元],如:

[{
    "field1": "100.10",
    "field2": "EUR",
    "field3": "10000",
    "field4": "0",
    "field5": "1",
    "field6": "1",
    "field7": "0",
    "field8": "100",
    "field9": "110.20",
    "field10": "100-char field",
    "dateField1": "1970-01-01",
    "dateField2": "1970-01-01",
    "dateTimeField": "1970-01-01T10:10:10Z"
},{
    "field1": "200.20",
    "field2": "EUR",
    "field3": "10001",
    "field4": "0",
    "field5": "1",
    "field6": "0",
    "field7": "0",
    "field8": "100",
    "field9": "220.30",
    "field10": "100-char field",
    "dateField1": "1970-01-01",
    "dateField2": "1970-01-01",
    "dateTimeField": "1970-01-01T20:20:20Z"
}, ...]

Run Code Online (Sandbox Code Playgroud)

BigTable控制台向我显示集群保持1,2GB.因此它将我插入的1,5GB压缩到原始大小的大约80%.然而,当它们存储在单元中时对一个典型的字符串进行Gzipping但是给出了约20%的压缩比.

因此,Big Iable的压缩性能对我来说似乎很低,因为我插入的数据包含大量重复值(例如字典键).我理解BigTable的压缩速度,但我希望它能在我的数据上表现更好.

对于上述数据,压缩率是否为80%,或者预期值较低？除了重新构建我正在上传的数据之外,是否有任何改进压缩的技术？

谢谢!

google-cloud-platform google-cloud-bigtable

Mat*_*ven

lucky-day

2
推荐指数

1
解决办法

484
查看次数