Vik*_*eek 5 hadoop crc apache-spark
我使用 saveAsTextFile 方法以文本格式将 RDD 写入本地文件系统。在输出目录中,即使是 _SUCCESS 文件,每个零件文件也有一个 .crc 文件。
我只是在寻找避免生成这些元文件(尤其是 .crc)的 Hadoop/Spark 的任何内置功能或属性
我发现以下属性可以避免为 parquet 文件生成 _SUCCESS 文件和 .crc 文件,但为文本文件寻找类似的属性。
sc.hadoopConfiguration.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")
sc.hadoopConfiguration.set("parquet.enable.summary-metadata", "false")
Run Code Online (Sandbox Code Playgroud)
提前致谢。