如何使用自定义实木复合地板压缩算法?

Jer*_*tan 3 apache-spark parquet apache-spark-sql

是否可以在Spark中使用自定义压缩算法对Parquet文件进行读写?

理想情况下,将其配置如下:

sqlContext.setConf("spark.sql.parquet.compression.codec", "myalgo")
Run Code Online (Sandbox Code Playgroud)

ste*_*ino 5

否,如文档中所述(此处指版本2.2.0),唯一可接受的值是

  • uncompressed
  • snappy
  • gzip
  • lzo

snappy默认的。

这是由于Parquet本身的局限性,该枚举仅使用一组受限的压缩算法,如本枚举中所列(对1.5.0版有效)。