Spark SQL会完全取代Apache Impala还是Apache Hive?

Tim*_*Koo 5 sql hadoop hive impala apache-spark

我需要在我们的服务器上部署大数据集群.但我只知道Apache Spark的知识.现在我需要知道Spark SQL是否可以完全取代Apache Impala或Apache Hive.

我需要你的帮助.谢谢.

Rij*_*jul 7

我想用实时场景解释一下

实时生产项目:

如果组织每天都在增加数据并且他们使用RDBMS数据进行查询,那么Hive主要用于存储数据/表并运行即席查询,然后他们可以使用HIVE.

Impala用于商业智能项目,其中报告通过一些前端工具完成,如tableau,pentaho等.

而Spark主要用于分析目的,开发人员更倾向于使用统计数据,因为他们也可以使用R launguage和spark来制作初始数据帧.

所以回答你的问题是"NO"火花不会取代蜂巢或黑斑羚.因为这三个都有自己的用例和好处,这些查询引擎也很容易实现,这取决于你的hadoop集群设置.

以下是一些有助于您更清楚地了解的链接:

http://db-engines.com/en/system/Hive%3BImpala%3BSpark+SQL

http://www.infoworld.com/article/3131058/analytics/big-data-face-off-spark-vs-impala-vs-hive-vs-presto.html

https://www.dezyre.com/article/impala-vs-hive-difference-between-sql-on-hadoop-components/180


Ani*_*non 5

不会。ApacheSpark是用于大数据处理的快速通用引擎,具有用于流传输,SQL,机器学习和图形处理的内置模块。

Impala-适用于Apache Hadoop的开源,分布式SQL查询引擎。

Hive-类似SQL的界面,用于查询存储在与Hadoop集成的各种数据库和文件系统中的数据。

参考:Hive和impala之间的差异


Apache Spark具有连接各种数据源的连接器,并且可以对数据进行处理。Hive提供了一个查询引擎,当与它集成时,可以帮助在Spark中更快地进行查询。

SparkSQL可以使用HiveMetastore获取存储在HDFS中的数据的元数据。此元数据使SparkSQL可以更好地优化其执行的查询。这里Spark是查询处理器。

参考:Databricks博客


小智 0

这是个好问题。我认为不会。尽管 Spark 比其他两个更快,但它们仍然都有自己的目的和工作方式。例如,对于熟悉Query语言的人来说,Hive和Impala会更容易使用,而Spark可以使用Hive Metastore进行更好的优化。所以,我认为它不会完全取代。