Hive比Spark快吗？

Question

阅读了什么是配置单元之后，它是数据库吗？，一位同事昨天提到，他能够在进行“分组依据”后过滤一个15B表，并将其与另一个表联接，仅10分钟就产生了6B条记录！我想知道这在Spark中是否会更慢，因为现在与DataFrames相比，它们是否具有可比性，但我不确定，因此是问题所在。

Hive比Spark快吗？还是这个问题没有意义？对不起，我的无知。

他使用的是最新的Hive，这似乎是在使用Tez。

Answer 1

Hive 只是一个为 MapReduce 类型工作负载提供 SQL 功能的框架。

这些工作负载可以在mapreduce 或yarn 上运行。

因此，比较 Tez 上的 Hive 与 Spark 上的 Hive。下面的好文章讨论了何时使用 Tez 在 Hive 上使用 ETL VS 何时使用 Spark ETL？（如果不确定，请在 Spark 上使用 Hive）。

越低越好

图表需要更新，因为我们现在有了经过大量优化的 Spark 2.0 - 一些查询运行速度比 Spark 1.x 快约 100 倍，大多数查询比 Spark 1.x 快约 10 倍:) (2认同)