火花。将 RDD 拆分成批

Dmi*_*try 5 batching apache-spark rdd

我有 RDD,其中每条记录都是 int:

[0,1,2,3,4,5,6,7,8]
Run Code Online (Sandbox Code Playgroud)

我需要做的就是将这个 RDD 分成几批。即制作另一个 RDD,其中每个元素都是固定大小的元素列表:

[[0,1,2], [3,4,5], [6,7,8]]
Run Code Online (Sandbox Code Playgroud)

这听起来微不足道,但是,我最近几天感到困惑,除了以下解决方案之外找不到任何东西:

  1. 使用 ZipWithIndex 枚举 RDD 中的记录:

    [0,1,2,3,4,5] -> [(0, 0),(1, 1),(2, 2),(3, 3),(4, 4),(5, 5)]

  2. 使用 map() 迭代这个 RDD 并计算索引 index = int(index / batchSize)

    [1,2,3,4,5,6] -> [(0, 0),(0, 1),(0, 2),(1, 3),(1, 4),(1, 5)]

  3. 然后按生成的索引分组。

    [(0, [0,1,2]), (1, [3,4,5])]

这将为我提供我需要的东西,但是,我不想在这里使用 group。当您使用普通 Map Reduce 或某些抽象(如 Apache Crunch)时,这很简单。但是有没有办法在不使用重分组的情况下在 Spark 中产生类似的结果?

kha*_*hik 0

您没有清楚地解释为什么需要固定大小的 RDD,具体取决于您想要完成的任务,可能有更好的解决方案,但要回答所提出的问题,我看到以下选项:1)
基于物品数量和批量大小。例如,如果原始 RDD 中有 1000 个项目,并且想要将它们分成 10 个批次,则最终将应用 10 个过滤器,第一个检查索引是否为 [0, 99],第二个检查索引是否为 [100, 199]等等。应用每个过滤器后,您将拥有一个 RDD。需要注意的是,原始 RDD 可能会在过滤之前被缓存。优点:每个生成的 RDD 都可以单独处理,不必完全分配在一个节点上。缺点:随着批次数量的增加,这种方法会变得更慢。
2) 逻辑上与此类似,但您只需实现一个自定义分区器,该分区器根据索引(键)返回分区 id,而不是过滤器,如下所述:相同大小分区的自定义分区器。优点:比过滤器更快。缺点:每个分区必须适合一个节点。
3)如果原始 RDD 中的顺序并不重要,只需要将其大致等分块,您可以合并/重新分区,此处解释https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-rdd -partitions.html