相关疑难解决方法(0)

在reduce阶段之后合并输出文件

在mapreduce中,每个reduce任务将其输出写入名为part-r-nnnnn的文件,其中nnnnn是与reduce任务关联的分区ID.map/reduce是否合并这些文件?如果有,怎么样?

hadoop mapreduce

74
推荐指数
4
解决办法
7万
查看次数

如何在没有重新分区和copyMerge的情况下合并spark结果文件?

我用下一个代码:

csv.saveAsTextFile(pathToResults, classOf[GzipCodec])
Run Code Online (Sandbox Code Playgroud)

pathToResults目录有很多文件,如part-0000,part-0001等.我可以使用FileUtil.copyMerge(),但它真的很慢,它下载驱动程序上的所有文件,然后将它们上传到hadoop.但FileUtil.copyMerge()比以下更快:

csv.repartition(1).saveAsTextFile(pathToResults, classOf[GzipCodec])
Run Code Online (Sandbox Code Playgroud)

如何在没有重新分区和FileUtil.copyMerge()的情况下合并spark结果文件?

hadoop scala apache-spark

7
推荐指数
1
解决办法
2万
查看次数

标签 统计

hadoop ×2

apache-spark ×1

mapreduce ×1

scala ×1