小编rea*_*sow的帖子

“ WARN TaskSetManager:舞台包含非常大的任务”该怎么办?

我使用spark 1.6.1。

我的spark应用程序读取s3中存储的10000个以上镶木地板文件。

val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*)
Run Code Online (Sandbox Code Playgroud)

myPathsArray[String]包含10000个实木复合地板文件的路径的。每条路径都是这样s3n://bucketname/blahblah.parquet

Spark警告消息如下。

WARN TaskSetManager:阶段4包含一个非常大的任务(108KB)。建议的最大任务大小为100KB。

无论如何,Spark设法运行并完成了这项工作,但我想这可能会减慢火花处理工作的速度。

有人对此问题有很好的建议吗?

apache-spark apache-spark-1.6

8
推荐指数
1
解决办法
8710
查看次数

在舞台上显示的数字的Spark-shell含义

[Stage 5:=====>  (26372 + 264) / 27840] 

[stage 6:=========> (0 + 200 ) / 200 ] 
Run Code Online (Sandbox Code Playgroud)

嗨,我正在使用spark 1.6.1.

我使用spark-shell查看数据,我想知道每个数字的含义.

( A + B / C ) 
Run Code Online (Sandbox Code Playgroud)

apache-spark

6
推荐指数
1
解决办法
408
查看次数

标签 统计

apache-spark ×2

apache-spark-1.6 ×1