分布式,同步批处理

sch*_*cho 5 java distributed-computing batch-processing akka

在我们当前的Java项目中,我们需要批量处理大量记录.完成此处理后,必须再次启动并再次处理所有记录.该处理必须并行化并且在多个节点之间分布.

记录本身存储在数据库中.使用一些id范围(例如1-10000)来识别批次就足够了.

从高层面来看,我看到以下步骤:

  1. 子任务处理一批记录.
  2. 主任务检查是否有任何子任务仍在运行.如果没有,请为每批记录创建一个子任务.

我们非常重视MongoDB,并考虑将子任务保存在其中.然后,每个节点都可以获取尚未完成的子任务,进行处理并将记录标记为已完成.一旦没有撤消的子任务,主任务将再次创建所有子任务.这可能会奏效,但我们正在寻找一种解决方案,我们不需要自己进行繁重的同步工作.

  • 这可能是akka的一个可能的用例吗?
  • 是否可以使用akka-persistence来同步不同节点之间的处理?
  • 是否有适合此工作的其他Java/JVM框架?