hadoop和spark之间有什么区别

Question

hadoop和spark之间有什么区别

Ros*_*iya 3 hadoop apache-spark

随着市场火花越来越大,我现在可以看到Spark的主要用例如Hadoop:

机器学习中的迭代算法
交互式数据挖掘和数据处理
Spark是一个完全与Apache Hive兼容的数据仓库系统,运行速度比Hive快100倍.
流处理:实时流中的日志处理和欺诈检测,用于警报,聚合和分析
传感器数据处理:在从多个源获取和连接数据的地方,内存数据集非常有用,因为它们易于处理
且速度快.

我的问题是:

未来几天火花会取代Hadoop吗？
Hadoop同时工作,而spark并行运行？(是真的吗？)

Answer 1

Arn*_*-Oz 5

如今的 Hadoop 是一系列技术的集合，但其本质是分布式文件系统 (HDFS) 和分布式资源管理器 (YARN)。Spark 是一个分布式计算框架，有望取代 Map/Reduce——另一种分布式计算框架

曾经是Hadoop的代名词
附带开箱即用的 Hadoop 以实现向后兼容性（在 YARN Map/Reduce 支持框架是 Hadoop 的资源管理框架之前）

具体来说 - Spark 不会取代 Hadoop，但可能会取代 Map/Reduce 和 Hadoop，Map/Reduce 和 Spark 都是分布式系统（并且并行运行）

Answer 2

小智 5

Spark在某种意义上与hadoop不同,它允许您在一个工具中集成数据提取,处理和实时分析.此外,火花图减少框架不同于标准的hadoop map减少因为在火花中间图减少结果被缓存,并且如果需要重用相同的结果,RDD(对于故障容忍的分布式集合的abstarction)可以保存在存储器中(迭代的alghoritms,group by等等).

我的回答非常肤浅,并没有完全回答你的问题,只是指出一些主要的区别(实际上更多)Spark和数据库官方网站真的有很好的文档记录,你的问题已在那里得到解答:

https://databricks.com/spark/about

http://spark.apache.org/faq.html

归档时间：	10 年，3 月前
查看次数：	2255 次
最近记录：	8 年，5 月前