Hive比Spark快吗?

gsa*_*ras 5 hadoop hive bigdata apache-spark apache-tez

阅读了什么是配置单元之后,它是数据库吗?,一位同事昨天提到,他能够在进行“分组依据”后过滤一个15B表,并将其与另一个表联接,仅10分钟就产生了6B条记录!我想知道这在Spark中是否会更慢,因为现在与DataFrames相比,它们是否具有可比性,但我不确定,因此是问题所在。

Hive比Spark快吗?还是这个问题没有意义?对不起,我的无知。

他使用的是最新的Hive,这似乎是在使用Tez。

Kri*_*yan 4

Hive 只是一个为 MapReduce 类型工作负载提供 SQL 功能的框架。

这些工作负载可以在mapreduce 或yarn 上运行。

因此,比较 Tez 上的 Hive 与 Spark 上的 Hive。下面的好文章讨论了何时使用 Tez 在 Hive 上使用 ETL VS 何时使用 Spark ETL?(如果不确定,请在 Spark 上使用 Hive)。

基准信息

越低越好

  • 图表需要更新,因为我们现在有了经过大量优化的 Spark 2.0 - 一些查询运行速度比 Spark 1.x 快约 100 倍,大多数查询比 Spark 1.x 快约 10 倍:) (2认同)