HIVE/HDFS可以大规模实时存储传感器数据?

use*_*144 3 hbase hive cassandra hdfs opentsdb

我正在评估具有以下要求的传感器数据采集系统,

  1. 100万个端点每分钟发送100个字节的数据(作为时间序列).
  2. 基本上数以百万计的小写入存储.

    This data is write-once, so basically it never gets updated.
    
    Run Code Online (Sandbox Code Playgroud)
  3. 访问要求
    a.需要定期访问用户的完整数据(不太频繁)
    b.用户的部分数据需要定期访问(更频繁).例如,我需要在过去一小时/每天/每周/每月收集的传感器数据用于分析/报告.

已经开始将Hive/HDFS视为一种选择.有人可以评论Hive在这种用例中的适用性吗?我担心虽然分布式存储需求可行,但它似乎比实时数据收集/存储更适合数据仓库应用程序.

HBase/Cassandra在这种情况下更有意义吗?

Arn*_*-Oz 6

我认为HBase对你来说是个不错的选择.事实上,HBase中已经有一个开放/源代码实现,可以解决您可能想要使用的类似问题.看一下openTSB,这是一个解决类似问题的开源实现.这是他们的简短摘录:

OpenTSDB是一个在HBase之上编写的分布式,可扩展的时间序列数据库(TSDB).编写OpenTSDB是为了满足一个共同的需求:存储,索引和提供从计算机系统(网络设备,操作系统,应用程序)大规模收集的指标,并使这些数据易于访问和可扩展.由于HBase的可扩展性,OpenTSDB允许您以高速率(每隔几秒)从数千个主机和应用程序中收集数千个指标.OpenTSDB永远不会删除或缩减数据采样,并且可以轻松存储数十亿个数据点.事实上,StumbleUpon使用它来跟踪数十万个时间序列,并在其主要生产数据中心每天收集超过6亿个数据点.