Har*_*jan 9 apache-spark spark-streaming
我是新的火花流。我知道窗口大小需要是批处理间隔的倍数。但是滑动间隔是如何工作的呢?如果我有 3 个窗口大小和 2 个滑动间隔,当我计算单词计数时会不会有重叠?或者滑动间隔和批处理间隔应该相同?
Vla*_*ans 12
这是文档的链接。
让我们来看看这些概念:
您可以参考上图,其中窗口大小是批处理间隔的 3 倍,滑动窗口是批处理间隔的 2 倍。
回答一个问题,为什么窗口和滑动间隔应该是批次间隔的倍数 - 这是因为否则你的窗口将在批次之间结束。
如果您的窗口大小为 3,滑动间隔为 2(见图) - 是的,您的字数会重叠。基本上,当您想要在有限的时间内计算某些内容时(例如实际新闻或推文或其他内容),当您不需要所有历史数据进行分析时,您可以使用 window 。
| 归档时间: |
|
| 查看次数: |
8169 次 |
| 最近记录: |