如何通过pyspark以gzip格式保存spark RDD

rcl*_*mal 8 python apache-spark pyspark

所以我使用以下代码将火花RDD保存到S3存储桶.有没有办法压缩(以gz格式)并保存而不是将其保存为文本文件.

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
Run Code Online (Sandbox Code Playgroud)

zer*_*323 13

saveAsTextFile method接受一个指定压缩编解码器类的可选参数:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)
Run Code Online (Sandbox Code Playgroud)