gsa*_*ras 5 hadoop hive bigdata apache-spark apache-tez
阅读了什么是配置单元之后,它是数据库吗?,一位同事昨天提到,他能够在进行“分组依据”后过滤一个15B表,并将其与另一个表联接,仅10分钟就产生了6B条记录!我想知道这在Spark中是否会更慢,因为现在与DataFrames相比,它们是否具有可比性,但我不确定,因此是问题所在。
Hive比Spark快吗?还是这个问题没有意义?对不起,我的无知。
他使用的是最新的Hive,这似乎是在使用Tez。
Hive 只是一个为 MapReduce 类型工作负载提供 SQL 功能的框架。
这些工作负载可以在mapreduce 或yarn 上运行。
因此,比较 Tez 上的 Hive 与 Spark 上的 Hive。下面的好文章讨论了何时使用 Tez 在 Hive 上使用 ETL VS 何时使用 Spark ETL?(如果不确定,请在 Spark 上使用 Hive)。
越低越好
归档时间: |
|
查看次数: |
3931 次 |
最近记录: |