相关疑难解决方法(0)

通过键Spark写入多个输出 - 一个Spark作业

如何在单个作业中使用Spark写入依赖于键的多个输出.

相关:通过键Scalding Hadoop写入多个输出,一个MapReduce作业

例如

sc.makeRDD(Seq((1, "a"), (1, "b"), (2, "c")))
.writeAsMultiple(prefix, compressionCodecOption)
Run Code Online (Sandbox Code Playgroud)

确保cat prefix/1

a
b
Run Code Online (Sandbox Code Playgroud)

cat prefix/2

c
Run Code Online (Sandbox Code Playgroud)

编辑:我最近添加了一个新的答案,其中包括完整的导入,皮条客和压缩编解码器,请参阅/sf/answers/3228263111/,除了之前的答案,这可能会有所帮助.

hadoop scala hdfs output apache-spark

63
推荐指数
4
解决办法
6万
查看次数

标签 统计

apache-spark ×1

hadoop ×1

hdfs ×1

output ×1

scala ×1