Hive 替代大数据查询

Question

来自Hive官方文档：

Hive 旨在为交互式数据浏览、小数据集查询或测试查询提供可接受的（但不是最佳的）延迟。

我不是数据库架构方面的专家，我想知道当上述假设不成立时（即对大数据集进行查询时）是否有替代方案。

Answer 1

有几种替代方法可以使查询运行速度显着加快。我不会详细介绍这些内容，但您可以探索以下内容：

Cloudera Impala：由cloudera开发http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html
Presto DB：由 Facebook 开发http://prestodb.io/
Spark SQL：构建在 Spark 之上（https://spark.apache.org/sql/）

有很多不错的文章比较了 Hive、Impala 和 Presto，并比较了它们的性能。您可以阅读它们并选择最适合您的用例的一个。这是一个比较它们的优缺点的链接：http://bigdatanerd.wordpress.com/2013/11/19/war-on-sql-over-hadoop/