什么是存储时间序列的有效方法？

Question

我有一个非常大量的数据,格式很糟糕:包含csv文件的16.4GiB zip 文件.每个都csv包含像

TYPE,2014-07-02 04:04:23.806,0.94598,0.94607

基本上:

总共我有3'091'472'167行,所以我们谈的是数十亿.主要操作将循环部分或全部数据集(为了在数据上运行算法),每月插入一次约2千万条记录(但插入数据不是我想要优化的东西) .

理想的解决方案是将它们存储在一个数据库中,以便我可以轻松地查询它们,但是一些粗略的计算表明我需要46GiB和Postgres(可能会因为一些丑陋的技巧而被降到18GiB).

我已经对我拥有的数据进行了一些实验,我发现:生成包含的gzip文件TIMESTAMP,FLOAT1,FLOAT2会让我~14GiB完全删除时间戳会让我降到~5GiB

节省空间的好方法是以有效的方式存储时间戳.我正在考虑创建一个树结构,其中每个节点都包含一个时间戳数字,其中叶子包含最后一个数字和两个浮点数.

我已经尝试过像druid.io这样的解决方案,但看起来他们正试图优化我的用例不需要的其他东西.

是否有一些我缺少的工具,它正是我想要的？如果没有,什么是存储时间序列数据的有效方法？

谢谢

Answer 1

在PostgreSQL方面,您还可以使用开源列式存储.这可以免费获得压缩,柱状布局和跳过索引.存储和磁盘I/O相关的好处是:

如果您还需要将查询扩展到多个CPU核心/机器,则可以使用可扩展的PostgreSQL:http://www.citusdata.com/downloads

除了压缩和高效的数据布局之外,您还可以免费获得PostgreSQL的类型检查,数据操作功能及其所有查询功能.

Answer 2

我会：