相关疑难解决方法(0)

通过键Spark写入多个输出 - 一个Spark作业

如何在单个作业中使用Spark写入依赖于键的多个输出.

相关:通过键Scalding Hadoop写入多个输出,一个MapReduce作业

例如

sc.makeRDD(Seq((1, "a"), (1, "b"), (2, "c")))
.writeAsMultiple(prefix, compressionCodecOption)
Run Code Online (Sandbox Code Playgroud)

确保cat prefix/1

a
b
Run Code Online (Sandbox Code Playgroud)

cat prefix/2

c
Run Code Online (Sandbox Code Playgroud)

编辑:我最近添加了一个新的答案,其中包括完整的导入,皮条客和压缩编解码器,请参阅/sf/answers/3228263111/,除了之前的答案,这可能会有所帮助.

hadoop scala hdfs output apache-spark

63
推荐指数
4
解决办法
6万
查看次数

创建像TextLine一样的Scalding Source,它将多个文件组合成单个映射器

我们有许多需要组合的小文件.在Scalding中,您可以使用TextLine文本行来读取文件.问题是我们每个文件得到1个映射器,但我们想要组合多个文件,以便它们由1个映射器处理.

我知道我们需要将输入格式更改为实现CombineFileInputFormat,这可能涉及使用cascadings CombinedHfs.我们无法弄清楚如何做到这一点,但它应该只是少数几行代码来定义我们自己的Scalding源,比如说CombineTextLine.

非常感谢能够提供代码的任何人.

作为一个方面的问题,我们有一些数据,在S3中,如果解决方案给出了S3文件作品也将是巨大的-我想这取决于是否CombineFileInputFormatCombinedHfs适用于S3.

hadoop scala cascading scalding

4
推荐指数
1
解决办法
1835
查看次数

标签 统计

hadoop ×2

scala ×2

apache-spark ×1

cascading ×1

hdfs ×1

output ×1

scalding ×1