小编She*_*oli的帖子

流媒体:滚动窗口与微批处理

流处理中 5 秒的滚动窗口与微批处理时 5 秒的微批次有何不同?两者都有一个 5 秒的非重叠窗口,在此期间它们处理记录,然后继续前进。

据我所知,流处理中有一个时间概念:事件、摄取和处理时间。我们是否可以推断使用微批处理的流处理只不过是使用具有摄取时间或处理时间的滚动窗口的流处理?

stream-processing apache-spark spark-streaming apache-flink flink-streaming

5
推荐指数
1
解决办法
956
查看次数

Apache Flink:水印、丢弃迟到事件和允许迟到

我无法理解水印和允许迟到的概念。

以下是 [邮件存档| 的摘录] https://www.mail-archive.com/user@flink.apache.org/msg08758.html]讨论了水印,但我还有几个问题。以下是引用的例子:

假设您有一个BoundedOutOfOrdernessTimestampExtractor2 分钟限制和 10 分钟滚动窗口,从 12:00 开始到 12:10 结束:

如果您有以下流序列:

12:01, A
12:04, B
WM, 12:02 // 12:04 - 2 minutes
12:02, C
12:08, D
12:14, E
WM, 12:12
12:16, F
WM, 12:14 // 12:16 - 2 minutes
12:09, G
Run Code Online (Sandbox Code Playgroud)

不允许迟到

当窗口操作符接收并评估此时<WM, 12:12>包含的窗口时,将逻辑时间转发到12:12,并最终清除其状态。后来被忽略。[A, B, C, D]<12:09, G>

允许迟到3分钟

窗口操作符在接收到窗口时评估窗口<WM, 12:12>,但其状态尚未清除。收到后状态将被清除<WM, 12:14>(窗口触发时间 12:10 + 允许延迟 3 分钟)。<12:09, G>再次被忽略。

允许迟到5分钟

窗口操作符在接收到窗口时评估窗口<WM, 12:12>,但其状态尚未清除。当<12:09, …

windowing apache-flink flink-streaming

5
推荐指数
1
解决办法
2543
查看次数

具有基于地理位置的策略与 Cloudfront 的多区域部署

我有一个自定义源,即 EC2 实例上的 Web 应用程序。我如何决定是否应该选择:

  1. Cloudfront CDN

或者,

  1. 在不同区域部署多个实例并配置基于地理位置/邻近度的路由策略

造成混乱的原因是,两者都旨在根据请求的位置将请求路由到最近的位置(在Cloudfront的情况下为边缘位置,在使用 Route 53 进行基于地理位置的策略的多区域部署时,则为区域特定的 EC2 实例)起源于.

amazon-ec2 amazon-web-services amazon-cloudfront amazon-route53

3
推荐指数
1
解决办法
3529
查看次数