Spark RDD saveAsTextFile gzip

lig*_*ght 5 apache-spark

是否可以将 Spark rdd 文本文件另存为 gzip?

我可以以某种方式运行它:combPrdGrp3.repartition(10).saveAsTextFile("Combined")并将其保存为 gzip 文件吗?

ban*_*ara 6

使用

import org.apache.hadoop.io.compress.GzipCodec
combPrdGrp3.repartition(10).saveAsTextFile("Combined", classOf[GzipCodec])
Run Code Online (Sandbox Code Playgroud)

或者

sc.hadoopConfiguration.setClass(FileOutputFormat.COMPRESS_CODEC, classOf[GzipCodec], classOf[CompressionCodec])
Run Code Online (Sandbox Code Playgroud)