Vic*_*r F 6 hadoop hbase azure azure-table-storage hdinsight
目前我的团队正在创建一个使用HDInsight的解决方案.我们每天将获得5TB的数据,并且需要对这些数据进行一些地图/减少工作.如果我们的数据将存储在Azure表存储而不是Azure HBase中,是否会有任何性能/成本差异?
主要区别在于功能和成本.
Azure表存储本身没有连接到它的map reduce引擎,当然你可以使用map reduce方法编写自己的.
您可以使用Azure HDInsight将Map Reduce连接到表存储.有几个连接器,包括我编写的一个连接器,需要一些配置,可能不适合您的分区方案(http://www.simonellistonball.com/technology/hadoop-hive-inputformat-azure-表格/)和性能较低,但来自微软某人的更完整版本(http://blogs.msdn.com/b/mostlytrue/archive/2014/04/04/analyzing-azure-table-storage-data- with-hdinsight.aspx).
Table Storage的主要优点是您不会经常承担处理成本.
如果你使用HBase,你将需要一直运行一个完整的集群,所以有一个成本劣势,但是,你将获得一些功能和性能提升,如果你想使用,你会有一些更便携的东西其他hadoop平台.您还可以使用HBase选项访问更多范围的分析功能.