小编syl*_*syl的帖子

我有两个带有两列的DataFrame

我需要将这些DataFrame加入键列（在key1和之间找到匹配的值key2）。但是问题在于它们的类型不同。有没有办法做到这一点？

7
推荐指数

2
解决办法

4077
查看次数

我正在使用Spark 2.0,这项工作首先是对输入数据进行排序并将其输出存储在HDFS上.

我遇到了内存错误,解决方案是将"spark.shuffle.memoryFraction"的值从0.2增加到0.8,这解决了这个问题.但是在文档中我发现这是一个弃用的参数.

据我所知,它被"spark.memory.fraction"取代.如何在考虑HDFS的排序和存储的同时修改此参数？

5
推荐指数

1
解决办法

5993
查看次数

我正在尝试使用bucketBy保存dataFrame

df.write.bucketBy("column").format("parquet").save()

但这会产生错误:

Exception in thread "main" org.apache.spark.sql.AnalysisException: 'save' does not support bucketing right now;

有没有其他方法可以保存bucketBy的结果？

5
推荐指数

1
解决办法

4620
查看次数

小编syl_syl的帖子