小编Art*_*iev的帖子

如何在Spark中设置Parquet文件编码

实木复合地板文档描述了几个不同的编码这里

它是在读/写期间以某种方式在文件内部发生变化,还是我可以设置它?Spark文档中没有任何关于它的内容.只有来自Netflix团队的Ryan Blue演讲的幻灯片.他将镶木地板配置设置为sqlContext

sqlContext.setConf("parquet.filter.dictionary.enabled", "true")
Run Code Online (Sandbox Code Playgroud)

看起来它不是关于Parquet文件中的普通字典编码.

scala apache-spark parquet apache-spark-sql

5
推荐指数
1
解决办法
4315
查看次数

如何在路径中没有分区前缀的情况下写出分区的DataFrame?

我有代码:

dataFrame.write
  .partitionBy("format", "dataset", "year", "month", "day", "hour")
  .format(outputFormat)
  .mode("overwrite")
  .save(outputPath)
Run Code Online (Sandbox Code Playgroud)

给出如下输出: 在此处输入图片说明

如何编写没有前缀的数据帧?不重命名。有没有办法通过 Spark 或 hadoop 配置来做到这一点?目前我正在使用单独的 bash 脚本来重命名文件夹。

明确地说,我想使用 Spark 代码获得下一个结构:

data
-+parquet
   +main
     +2017
        +01
         +31
           +15
Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql

3
推荐指数
1
解决办法
724
查看次数

标签 统计

apache-spark ×2

apache-spark-sql ×2

scala ×2

parquet ×1