Pio*_*zda 5 hadoop data-warehouse infobright
我需要存储大量的小数据对象(每月数百万行).一旦他们得救,他们就不会改变.我需要 :
我的第一个镜头是Infobright Community - 只是一个面向列的,只读的MySQL存储机制
另一方面,人们说NoSQL方法可能会更好.Hadoop + Hive看起来很有问题,但文档看起来很差,版本号小于1.0.
我听说过Hypertable,Pentaho,MongoDB ....
你有什么建议 ?
(是的,我在这里找到了一些主题,但它是一两年前)
编辑:其他解决方案:MonetDB,InfiniDB,LucidDB - 你怎么看?
如果您正在寻找与报告工具的兼容性,基于 MySQL 的工具可能是您的最佳选择。至于什么对你有用,Infobright 可能有用。还有其他几种解决方案,但是您可能还想看看普通的 MySQL 和 Archive 表。每条记录都经过压缩和存储,IIRC,它是针对您的工作负载类型而设计的,但我认为 Infobright 应该获得更好的压缩。我还没有真正使用过,所以我不确定哪个最适合你。
至于键值存储(例如NoSQL),是的,它们也可以工作,并且有很多替代方案。我知道 CouchDB 有“视图”,但我没有机会使用任何视图,所以我不知道它们的工作效果如何。
我对您的数据集唯一关心的是,既然您提到了时间,您可能希望确保您使用的任何解决方案都允许您归档特定时间之后的数据。常见的数据仓库做法是仅在线保留 N 个月的数据,并将其余数据存档。这就是 RDBMS 中实现的分区非常有用的地方。
归档时间: |
|
查看次数: |
4131 次 |
最近记录: |