小编rea*_*sow的帖子

我使用spark 1.6.1。

我的spark应用程序读取s3中存储的10000个以上镶木地板文件。

val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*)

myPaths是Array[String]包含10000个实木复合地板文件的路径的。每条路径都是这样s3n://bucketname/blahblah.parquet

Spark警告消息如下。

WARN TaskSetManager：阶段4包含一个非常大的任务（108KB）。建议的最大任务大小为100KB。

无论如何，Spark设法运行并完成了这项工作，但我想这可能会减慢火花处理工作的速度。

有人对此问题有很好的建议吗？

8
推荐指数

1
解决办法

8710
查看次数

[Stage 5:=====>  (26372 + 264) / 27840] 

[stage 6:=========> (0 + 200 ) / 200 ]

嗨,我正在使用spark 1.6.1.

我使用spark-shell查看数据,我想知道每个数字的含义.

( A + B / C )

6
推荐指数

1
解决办法

408
查看次数

小编rea_sow的帖子