Apache Phoenix vs Hive-Spark

kra*_*ter 6 hbase hive phoenix cassandra apache-spark

什么更快/更容易转换为SQL,接受SQL脚本作为输入:Spark SQL作为Hive高延迟查询或Phoenix的一层速度?如果是这样,怎么样?我需要对数据进行大量的upserts/join/grouping.[HBase的]

在Cassandra CQL之上是否有任何替代方案可以支持上述(以实时方式加入/分组)?

因为我想利用MLlib,所以我很可能一定要使用Spark.但是为了处理应该是我的选择的数据呢?

谢谢,克拉斯特

Gri*_*ick 3

http://phoenix-hbase.blogspot.com/ 我更加确信 Hbase 上的 Phoenix 会运行得更快。

这是测试查询的示例查询和 PC 要求:从超过 10M 和 100M 行的表中选择 count(1)。数据是 5 个窄列。区域服务器数量:4(HBase 堆:10GB,处理器:6 核 @ 3.3GHz Xeon) 在此输入图像描述 因为Phoenix使用HBASE客户端接口来加载所有查询,并且使用查询引擎仅将sql任务映射到HBase中的mapreduce任务