Spark不使用spark.sql.parquet.compression.codec

Question

我正在比较Spark的实木复合地板文件与apache-drill的实木复合地板文件。钻的镶木地板比火花的轻巧。Spark默认使用GZIP作为压缩编解码器，为了进行实验，我尝试将其更改为snappy：未压缩的相同大小：lzo相同的大小：异常

我尝试了两种方式：

sqlContext.sql("SET spark.sql.parquet.compression.codec=uncompressed")
sqlContext.setConf("spark.sql.parquet.compression.codec.", "uncompressed")

但似乎并没有改变他的设置

Answer 1

在2.1.1中为我工作

df.write.option("compression","snappy").parquet(filename)