Mat*_*ven 2 google-cloud-platform google-cloud-bigtable
我正在研究BigTable如何压缩我的数据.
我已经将1,5GB装入1张桌子; 大约500k行包含1列,平均每个单元格大约3kb.在进一步的测试中,将向包含具有相似大小的类似数据的这些行添加更多列.
每个单元格中的数据目前是一个JSON序列化的字典数组[平均10元],如:
[{
"field1": "100.10",
"field2": "EUR",
"field3": "10000",
"field4": "0",
"field5": "1",
"field6": "1",
"field7": "0",
"field8": "100",
"field9": "110.20",
"field10": "100-char field",
"dateField1": "1970-01-01",
"dateField2": "1970-01-01",
"dateTimeField": "1970-01-01T10:10:10Z"
},{
"field1": "200.20",
"field2": "EUR",
"field3": "10001",
"field4": "0",
"field5": "1",
"field6": "0",
"field7": "0",
"field8": "100",
"field9": "220.30",
"field10": "100-char field",
"dateField1": "1970-01-01",
"dateField2": "1970-01-01",
"dateTimeField": "1970-01-01T20:20:20Z"
}, ...]
Run Code Online (Sandbox Code Playgroud)
BigTable控制台向我显示集群保持1,2GB.因此它将我插入的1,5GB压缩到原始大小的大约80%.然而,当它们存储在单元中时对一个典型的字符串进行Gzipping但是给出了约20%的压缩比.
因此,Big Iable的压缩性能对我来说似乎很低,因为我插入的数据包含大量重复值(例如字典键).我理解BigTable的压缩速度,但我希望它能在我的数据上表现更好.
对于上述数据,压缩率是否为80%,或者预期值较低?除了重新构建我正在上传的数据之外,是否有任何改进压缩的技术?
谢谢!
绝对可以期待更低的价值.我们已经找到并修复了与Cloud Bigtable中使用压缩相关的错误,该错误现已投入生产.
对于您发布的示例等数据,您现在应该看到更高的压缩率和更低的磁盘使用率!
归档时间: |
|
查看次数: |
484 次 |
最近记录: |