rcl*_*mal 8 python apache-spark pyspark
所以我使用以下代码将火花RDD保存到S3存储桶.有没有办法压缩(以gz格式)并保存而不是将其保存为文本文件.
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
Run Code Online (Sandbox Code Playgroud)
zer*_*323 13
saveAsTextFile method接受一个指定压缩编解码器类的可选参数:
help_data.repartition(5).saveAsTextFile(
path="s3://help-test/logs/help",
compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
4878 次 |
| 最近记录: |