流处理中 5 秒的滚动窗口与微批处理时 5 秒的微批次有何不同?两者都有一个 5 秒的非重叠窗口,在此期间它们处理记录,然后继续前进。
据我所知,流处理中有一个时间概念:事件、摄取和处理时间。我们是否可以推断使用微批处理的流处理只不过是使用具有摄取时间或处理时间的滚动窗口的流处理?
stream-processing apache-spark spark-streaming apache-flink flink-streaming
我无法理解水印和允许迟到的概念。
以下是 [邮件存档| 的摘录] https://www.mail-archive.com/user@flink.apache.org/msg08758.html]讨论了水印,但我还有几个问题。以下是引用的例子:
假设您有一个
BoundedOutOfOrdernessTimestampExtractor2 分钟限制和 10 分钟滚动窗口,从 12:00 开始到 12:10 结束:如果您有以下流序列:
Run Code Online (Sandbox Code Playgroud)12:01, A 12:04, B WM, 12:02 // 12:04 - 2 minutes 12:02, C 12:08, D 12:14, E WM, 12:12 12:16, F WM, 12:14 // 12:16 - 2 minutes 12:09, G不允许迟到
当窗口操作符接收并评估此时
<WM, 12:12>包含的窗口时,将逻辑时间转发到12:12,并最终清除其状态。后来被忽略。[A, B, C, D]<12:09, G>允许迟到3分钟
窗口操作符在接收到窗口时评估窗口
<WM, 12:12>,但其状态尚未清除。收到后状态将被清除<WM, 12:14>(窗口触发时间 12:10 + 允许延迟 3 分钟)。<12:09, G>再次被忽略。允许迟到5分钟
窗口操作符在接收到窗口时评估窗口
<WM, 12:12>,但其状态尚未清除。当<12:09, …
我有一个自定义源,即 EC2 实例上的 Web 应用程序。我如何决定是否应该选择:
或者,
造成混乱的原因是,两者都旨在根据请求的位置将请求路由到最近的位置(在Cloudfront的情况下为边缘位置,在使用 Route 53 进行基于地理位置的策略的多区域部署时,则为区域特定的 EC2 实例)起源于.
amazon-ec2 amazon-web-services amazon-cloudfront amazon-route53