Spark不使用spark.sql.parquet.compression.codec

Fed*_*nzi 4 apache-spark

我正在比较Spark的实木复合地板文件与apache-drill的实木复合地板文件。钻的镶木地板比火花的轻巧。Spark默认使用GZIP作为压缩编解码器,为了进行实验,我尝试将其更改为snappy:未压缩的相同大小:lzo相同的大小:异常

我尝试了两种方式:

sqlContext.sql("SET spark.sql.parquet.compression.codec=uncompressed")
sqlContext.setConf("spark.sql.parquet.compression.codec.", "uncompressed")
Run Code Online (Sandbox Code Playgroud)

但似乎并没有改变他的设置

rus*_*eel 6

在2.1.1中为我工作

df.write.option("compression","snappy").parquet(filename)
Run Code Online (Sandbox Code Playgroud)