相关疑难解决方法(0)

Spark使用python:如何解析Stage x包含一个非常大的任务(xxx KB).建议的最大任务大小为100 KB

我刚刚创建了python列表range(1,100000).

使用SparkContext完成以下步骤:

a = sc.parallelize([i for i in range(1, 100000)])
b = sc.parallelize([i for i in range(1, 100000)])

c = a.zip(b)

>>> [(1, 1), (2, 2), -----]

sum  = sc.accumulator(0)

c.foreach(lambda (x, y): life.add((y-x)))
Run Code Online (Sandbox Code Playgroud)

其中发出如下警告:

ARN TaskSetManager:阶段3包含一个非常大的任务(4644 KB).建议的最大任务大小为100 KB.

如何解决此警告?有没有办法处理大小?而且,它会影响大数据的时间复杂度吗?

apache-spark spark-streaming

30
推荐指数
3
解决办法
3万
查看次数

标签 统计

apache-spark ×1

spark-streaming ×1