实木复合地板文档描述了几个不同的编码这里
它是在读/写期间以某种方式在文件内部发生变化,还是我可以设置它?Spark文档中没有任何关于它的内容.只有来自Netflix团队的Ryan Blue演讲的幻灯片.他将镶木地板配置设置为sqlContext
sqlContext.setConf("parquet.filter.dictionary.enabled", "true")
Run Code Online (Sandbox Code Playgroud)
看起来它不是关于Parquet文件中的普通字典编码.
我有代码:
dataFrame.write
.partitionBy("format", "dataset", "year", "month", "day", "hour")
.format(outputFormat)
.mode("overwrite")
.save(outputPath)
Run Code Online (Sandbox Code Playgroud)
如何编写没有前缀的数据帧?不重命名。有没有办法通过 Spark 或 hadoop 配置来做到这一点?目前我正在使用单独的 bash 脚本来重命名文件夹。
明确地说,我想使用 Spark 代码获得下一个结构:
data
-+parquet
+main
+2017
+01
+31
+15
Run Code Online (Sandbox Code Playgroud)