小编Arj*_*jit的帖子

我们正在开发Spark框架,其中我们将历史数据移动到RDD集合中.

基本上,RDD是我们进行操作的不可变的只读数据集.基于此,我们已将历史数据移至RDD,并在此类RDD上进行过滤/映射等计算.

现在有一个用例,RDD中的数据子集得到更新,我们必须重新计算这些值.

HistoricalData采用RDD的形式.我根据请求范围创建另一个RDD,并在ScopeCollection中保存该RDD的引用

到目前为止,我已经能够想到以下方法 -

方法1:广播变化:

对于每个更改请求,我的服务器获取特定于范围的RDD并生成作业
在工作中,在该RDD上应用地图阶段 -

2.a. 对于RDD中的每个节点,在广播上进行查找并创建一个现在更新的新值,从而创建一个新的RDD
2.b. 现在我在step2.a上再次对这个新的RDD进行所有计算.像乘法,减少等
2.c. 我将此RDDs引用保存在我的ScopeCollection中

方法2:为更新创建RDD