小编Ale*_*ann的帖子

在 Spark 中保存有序数据帧

我正在尝试将有序数据帧保存到 HDFS 中。我的代码如下所示:

dataFrame.orderBy("index").write().mode(SaveMode.Overwrite).parquet(getPath());
Run Code Online (Sandbox Code Playgroud)

我在两个不同的集群上运行相同的代码,一个集群使用 Spark 1.5.0,另一个 - 1.6.0。在使用 Spark 1.5.0 的集群上运行时,保存到磁盘后不会保留排序。

在将数据保存到磁盘期间,是否有任何特定的群集设置来保留排序?或者它是spark版本的已知问题?我搜索了 spark 文档,但找不到任何相关信息。

更新:

我检查了镶木地板中的文件,并且在这两种情况下文件都已排序。所以读取时会出现问题,Spark 1.5.0 不会在读取时保留顺序,而 1.6.0 会。

所以我现在的问题是:是否可以在 Spark 1.5.0 中读取排序文件并保留排序?

hadoop dataframe apache-spark

5
推荐指数
1
解决办法
7507
查看次数

禁用Intellij IDEA中的自动代码重新排列

更新IntelliJ IDEA后,它开始在每次git提交之前重新排列代码.我在"设置">"编辑器">"代码样式">"Java"中找到了重新排列规则,但没有启用/禁用功能的复选框.
我该如何禁用它?

java git version-control intellij-idea git-commit

4
推荐指数
1
解决办法
605
查看次数