hadoop和spark之间有什么区别

Ros*_*iya 3 hadoop apache-spark

随着市场火花越来越大,我现在可以看到Spark的主要用例如Hadoop:

  1. 机器学习中的迭代算法
  2. 交互式数据挖掘和数据处理
  3. Spark是一个完全与Apache Hive兼容的数据仓库系统,运行速度比Hive快100倍.
  4. 流处理:实时流中的日志处理和欺诈检测,用于警报,聚合和分析
  5. 传感器数据处理:在从多个源获取和连接数据的地方,内存数据集非常有用,因为它们易于处理
    且速度快.

我的问题是:

  1. 未来几天火花会取代Hadoop吗?
  2. Hadoop同时工作,而spark并行运行?(是真的吗?)

Arn*_*-Oz 5

如今的 Hadoop 是一系列技术的集合,但其本质是分布式文件系统 (HDFS) 和分布式资源管理器 (YARN)。Spark 是一个分布式计算框架,有望取代 Map/Reduce——另一种分布式计算框架

  1. 曾经是Hadoop的代名词
  2. 附带开箱即用的 Hadoop 以实现向后兼容性(在 YARN Map/Reduce 支持框架是 Hadoop 的资源管理框架之前)

具体来说 - Spark 不会取代 Hadoop,但可能会取代 Map/Reduce 和 Hadoop,Map/Reduce 和 Spark 都是分布式系统(并且并行运行)


小智 5

Spark在某种意义上与hadoop不同,它允许您在一个工具中集成数据提取,处理和实时分析.此外,火花图减少框架不同于标准的hadoop map减少因为在火花中间图减少结果被缓存,并且如果需要重用相同的结果,RDD(对于故障容忍的分布式集合的abstarction)可以保存在存储器中(迭代的alghoritms,group by等等).

我的回答非常肤浅,并没有完全回答你的问题,只是指出一些主要的区别(实际上更多)Spark和数据库官方网站真的有很好的文档记录,你的问题已在那里得到解答:

https://databricks.com/spark/about

http://spark.apache.org/faq.html