我使用spark 1.6.1。
我的spark应用程序读取s3中存储的10000个以上镶木地板文件。
val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*)
Run Code Online (Sandbox Code Playgroud)
myPaths是Array[String]包含10000个实木复合地板文件的路径的。每条路径都是这样s3n://bucketname/blahblah.parquet
Spark警告消息如下。
WARN TaskSetManager:阶段4包含一个非常大的任务(108KB)。建议的最大任务大小为100KB。
无论如何,Spark设法运行并完成了这项工作,但我想这可能会减慢火花处理工作的速度。
有人对此问题有很好的建议吗?
[Stage 5:=====> (26372 + 264) / 27840]
[stage 6:=========> (0 + 200 ) / 200 ]
Run Code Online (Sandbox Code Playgroud)
嗨,我正在使用spark 1.6.1.
我使用spark-shell查看数据,我想知道每个数字的含义.
( A + B / C )
Run Code Online (Sandbox Code Playgroud)