Apache Spark与Apache Spark 2

You*_*bit 12 apache-spark apache-spark-2.0

与Apache Spark相比,Apache Spark2带来了哪些改进?

  1. 从架构角度来看
  2. 从应用的角度来看
  3. 或者更多

bob*_*bob 11

Apache Spark 2.0.0 API基本上与1.X相似,Spark 2.0.0确实有API中断更改

Apache Spark 2.0.0是2.x系列的第一个版本.主要更新包括API可用性,SQL 2003支持,性能改进,结构化流,R UDF支持以及运营改进.

火花2中的新功能:

  • 我能看到的最大变化是DataSet和DataFrame API将被合并.
  • 与前辈相比,Spark的最新和最好的效率将非常高效.Spark 2.0将专注于Parquet和缓存的组合,以实现更高的吞吐量.
  • 结构化流媒体是另一件大事!
  • 这将是第一个专注于ETL的版本.连续版本将为ETL添加更多运算符和库

您可以浏览Spark版本2.0.0,其中解释了以下几点的更新:

  • API稳定性
  • 核心和Spark SQL
  • MLlib
  • SparkR
  • 依赖,打包和运营
  • 删除,行为更改和弃用
  • 已知的问题


Shi*_*nsh 5

在架构方面没有太大区别,因为简而言之仍然是DAG和RDD,这是它最重要的部分!

虽然Spark 2.0更加优化,并且具有DataSet Api,它为开发人员提供了更强大的功能.所以我会说架构是一样的,它只是Spark 2.0提供了很多优化,并拥有丰富的Api!

这些是Apache Spark 2.0提供的主要内容:

  • 我能看到的最大变化是DataSet和DataFrame API将被合并.
  • 与前辈相比,Spark的最新和最好的效率将非常高效.Spark 2.0将专注于Parquet和缓存的组合,以实现更高的吞吐量.
  • 结构化流媒体是另一件大事!
  • 这将是第一个专注于ETL的版本.连续版本将为ETL添加更多运算符和库

欲了解更多信息,请访问:https://www.quora.com/What-are-special-features-and-advantages-of-Apache-Spark-2-0-over-earlier-versions