Spark SQL会完全取代Apache Impala还是Apache Hive？

Question

我需要在我们的服务器上部署大数据集群.但我只知道Apache Spark的知识.现在我需要知道Spark SQL是否可以完全取代Apache Impala或Apache Hive.

我需要你的帮助.谢谢.

Answer 1

我想用实时场景解释一下

实时生产项目:

如果组织每天都在增加数据并且他们使用RDBMS数据进行查询,那么Hive主要用于存储数据/表并运行即席查询,然后他们可以使用HIVE.

Impala用于商业智能项目,其中报告通过一些前端工具完成,如tableau,pentaho等.

而Spark主要用于分析目的,开发人员更倾向于使用统计数据,因为他们也可以使用R launguage和spark来制作初始数据帧.

所以回答你的问题是"NO"火花不会取代蜂巢或黑斑羚.因为这三个都有自己的用例和好处,这些查询引擎也很容易实现,这取决于你的hadoop集群设置.

以下是一些有助于您更清楚地了解的链接:

Answer 2

不会。ApacheSpark是用于大数据处理的快速通用引擎，具有用于流传输，SQL，机器学习和图形处理的内置模块。

Impala-适用于Apache Hadoop的开源，分布式SQL查询引擎。

Hive-类似SQL的界面，用于查询存储在与Hadoop集成的各种数据库和文件系统中的数据。

Apache Spark具有连接各种数据源的连接器，并且可以对数据进行处理。Hive提供了一个查询引擎，当与它集成时，可以帮助在Spark中更快地进行查询。

SparkSQL可以使用HiveMetastore获取存储在HDFS中的数据的元数据。此元数据使SparkSQL可以更好地优化其执行的查询。这里Spark是查询处理器。

Answer 3

这是个好问题。我认为不会。尽管 Spark 比其他两个更快，但它们仍然都有自己的目的和工作方式。例如，对于熟悉Query语言的人来说，Hive和Impala会更容易使用，而Spark可以使用Hive Metastore进行更好的优化。所以，我认为它不会完全取代。