Apache Spark结构流与Apache Flink:有什么区别?

Shu*_* Li 8 apache-spark apache-flink spark-structured-streaming

我们已经讨论过以下问题:

但是Spark Structured Streaming在Spark2.2中添加了它,它为流媒体带来了很多变化,而且非常出色.

我们可以说Spark Strutured Streaming是流处理,还是批量处理?

现在Apache Fink和之间的最大区别是Apache Spark Structured Streaming什么?

T. *_*ęda 6

目前:

Spark Structured Streaming还有背景中使用的微型游戏.但是,它支持事件时间处理,相当低的延迟(但不低于 Flink),在一个API上支持流上的SQL和类型安全查询; 没有区别,每个数据集都可以使用SQL或类型安全运算符进行查询.它具有端到端的完全一个语义(至少他们说它;)).吞吐量优于Flink(有一些基准测试结果不同,但请看Databricks关于结果的帖子).

在不久的将来:

Spark连续处理模式正在进行中,它将提供Spark~1ms的延迟,与Flink相当.但是,正如我所说,它仍在进行中.API已准备好进行非批处理作业,因此比以前的Spark Streaming更容易.

主要区别:

Spark现在依赖于微批处理,而Flink则预先安排了运营商.这意味着,Flink的延迟较低,但Spark社区的工作在连续处理模式,这将与接收器类似(据我所知).

  • 此外,吞吐量更好的说法并非如此.请参阅此幻灯片:https://www.slideshare.net/JamieGrier/extending-the-yahoo-streaming-benchmark-mapr-benchmarks/36 Flink还可以实现> 70M msgs/sec的吞吐量.在你提供的帖子中,他们没有解释他们的任何设置,所以我不相信任何这些数字. (3认同)