小编use*_*300的帖子

使用Checkpoint进行Spark流式传输

我是一个引发流媒体的初学者.因此对检查点有一个基本的疑问.我的用例是按天计算唯一用户的数量.我正在使用按键和窗口缩小.我的窗口持续时间为24小时,滑动持续时间为5分钟.我正在将处理过的记录更新为mongodb.目前我每次都会更换现有记录.但我看到记忆力随着时间的推移逐渐增加,并在1小时半后杀死这个过程(在小实例中).重新启动后DB写入清除所有旧数据.所以我理解检查点就是解决方案.但我怀疑的是

  • 我的检查点持续时间应该是多少?根据文档,它说5-10倍的幻灯片持续时间.但我需要一整天的数据.所以可以保持24小时.
  • 理想情况下,检查站应该在哪里?最初当我收到流时或在窗口操作之前或数据缩减发生之后.

  • 感谢您的帮助.
    谢谢

    apache-spark spark-streaming

    0
    推荐指数
    1
    解决办法
    2374
    查看次数

    标签 统计

    apache-spark ×1

    spark-streaming ×1