Hive vs SQL Server性能

Question

1)我从最近2个月开始使用蜂巢.我和SQL中的任务相同.我发现Hive很慢并且需要更多时间来执行查询,而SQL在几分钟/秒内执行查询.

在Hive中执行任务后,当我在两者(SQL和Hive)中交叉检查结果时,我发现结果有些不同(并非在所有表中都有).例如:我有一张表有2012年的记录,当我在Hive的Hive中执行任务时,我得到了2007年的记录.

为什么会这样？

2)如果我想加速我在Hive中的执行,那么我该怎么做呢？(目前我只在单个集群上执行所有这些东西.如果我想增加集群,那么我需要多少集群才能提高性能)

请建议我一些解决方案或一些好的做法,以便我能够敏锐地做到这一点.

谢谢.

Answer 1

除了查询语言语法的相似性之外，Hive 和 SQL Server 在任何方面都没有可比性。
虽然 SQL Server 构建为能够从单台机器实时响应，但 hive 用于处理可能跨越数百或数千台机器的大型数据集。
Hive（通过 hadoop）有很多启动工作的开销。
Hive 和 hadoop 不会像 sql server 那样在内存中缓存数据。
Hive 只有最近添加的索引，因此大多数查询最终都是表扫描。
如果您的数据集适合一台计算机，您可能希望坚持使用 SQL Server 而不是 Hive。Hive 性能调优主要基于 Hadoop 性能调优，尽管根据您运行的查询类型，使用 LazyBinarySerDe 可以获得免费的性能。

Hive 与常规 SQL 确实存在一些差异，这些差异可能会影响您的查询。没有更多细节，我无法推测原因。