Hive 替代大数据查询

Bob*_*Bob 5 database apache hive bigdata

来自Hive官方文档:

Hive 旨在为交互式数据浏览、小数据集查询或测试查询提供可接受的(但不是最佳的)延迟。

我不是数据库架构方面的专家,我想知道当上述假设不成立时(即对大数据集进行查询时)是否有替代方案。

Ama*_*mar 5

有几种替代方法可以使查询运行速度显着加快。我不会详细介绍这些内容,但您可以探索以下内容:

  1. Cloudera Impala:由cloudera开发http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html

  2. Presto DB:由 Facebook 开发http://prestodb.io/

  3. Spark SQL:构建在 Spark 之上(https://spark.apache.org/sql/

有很多不错的文章比较了 Hive、Impala 和 Presto,并比较了它们的性能。您可以阅读它们并选择最适合您的用例的一个。这是一个比较它们的优缺点的链接:http://bigdatanerd.wordpress.com/2013/11/19/war-on-sql-over-hadoop/