我刚刚创建了python列表range(1,100000).
使用SparkContext完成以下步骤:
a = sc.parallelize([i for i in range(1, 100000)])
b = sc.parallelize([i for i in range(1, 100000)])
c = a.zip(b)
>>> [(1, 1), (2, 2), -----]
sum = sc.accumulator(0)
c.foreach(lambda (x, y): life.add((y-x)))
Run Code Online (Sandbox Code Playgroud)
其中发出如下警告:
ARN TaskSetManager:阶段3包含一个非常大的任务(4644 KB).建议的最大任务大小为100 KB.
如何解决此警告?有没有办法处理大小?而且,它会影响大数据的时间复杂度吗?