use*_*144 3 hbase hive cassandra hdfs opentsdb
我正在评估具有以下要求的传感器数据采集系统,
基本上数以百万计的小写入存储.
This data is write-once, so basically it never gets updated.
Run Code Online (Sandbox Code Playgroud)已经开始将Hive/HDFS视为一种选择.有人可以评论Hive在这种用例中的适用性吗?我担心虽然分布式存储需求可行,但它似乎比实时数据收集/存储更适合数据仓库应用程序.
HBase/Cassandra在这种情况下更有意义吗?
我认为HBase对你来说是个不错的选择.事实上,HBase中已经有一个开放/源代码实现,可以解决您可能想要使用的类似问题.看一下openTSB,这是一个解决类似问题的开源实现.这是他们的简短摘录:
OpenTSDB是一个在HBase之上编写的分布式,可扩展的时间序列数据库(TSDB).编写OpenTSDB是为了满足一个共同的需求:存储,索引和提供从计算机系统(网络设备,操作系统,应用程序)大规模收集的指标,并使这些数据易于访问和可扩展.由于HBase的可扩展性,OpenTSDB允许您以高速率(每隔几秒)从数千个主机和应用程序中收集数千个指标.OpenTSDB永远不会删除或缩减数据采样,并且可以轻松存储数十亿个数据点.事实上,StumbleUpon使用它来跟踪数十万个时间序列,并在其主要生产数据中心每天收集超过6亿个数据点.
| 归档时间: |
|
| 查看次数: |
2485 次 |
| 最近记录: |