Hive vs SQL Server性能

Bha*_*hah 6 sql-server hive

1)我从最近2个月开始使用蜂巢.我和SQL中的任务相同.我发现Hive很慢并且需要更多时间来执行查询,而SQL在几分钟/秒内执行查询.

在Hive中执行任务后,当我在两者(SQL和Hive)中交叉检查结果时,我发现结果有些不同(并非在所有表中都有).例如:我有一张表有2012年的记录,当我在Hive的Hive中执行任务时,我得到了2007年的记录.

为什么会这样?

2)如果我想加速我在Hive中的执行,那么我该怎么做呢?(目前我只在单个集群上执行所有这些东西.如果我想增加集群,那么我需要多少集群才能提高性能)

请建议我一些解决方案或一些好的做法,以便我能够敏锐地做到这一点.

谢谢.

Ste*_*nce 5

  • 除了查询语言语法的相似性之外,Hive 和 SQL Server 在任何方面都没有可比性。
  • 虽然 SQL Server 构建为能够从单台机器实时响应,但 hive 用于处理可能跨越数百或数千台机器的大型数据集。
  • Hive(通过 hadoop)有很多启动工作的开销。
  • Hive 和 hadoop 不会像 sql server 那样在内存中缓存数据。
  • Hive 只有最近添加的索引,因此大多数查询最终都是表扫描。
  • 如果您的数据集适合一台计算机,您可能希望坚持使用 SQL Server 而不是 Hive。Hive 性能调优主要基于 Hadoop 性能调优,尽管根据您运行的查询类型,使用 LazyBinarySerDe 可以获得免费的性能。

Hive 与常规 SQL 确实存在一些差异,这些差异可能会影响您的查询。没有更多细节,我无法推测原因。