小编syl*_*syl的帖子

Spark:将dataframe列与数组连接

我有两个带有两列的DataFrame

  • df1 与模式 (key1:Long, Value)

  • df2 与模式 (key2:Array[Long], Value)

我需要将这些DataFrame加入键列(在key1和之间找到匹配的值key2)。但是问题在于它们的类型不同。有没有办法做到这一点?

join apache-spark

7
推荐指数
2
解决办法
4077
查看次数

Spark 2.0内存分数

我正在使用Spark 2.0,这项工作首先是对输入数据进行排序并将其输出存储在HDFS上.

我遇到了内存错误,解决方案是将"spark.shuffle.memoryFraction"的值从0.2增加到0.8,这解决了这个问题.但是在文档中我发现这是一个弃用的参数.

据我所知,它被"spark.memory.fraction"取代.如何在考虑HDFS的排序和存储的同时修改此参数?

memory distributed-computing out-of-memory apache-spark apache-spark-2.0

5
推荐指数
1
解决办法
5993
查看次数

如何保存bucketed DataFrame?

我正在尝试使用bucketBy保存dataFrame

df.write.bucketBy("column").format("parquet").save()
Run Code Online (Sandbox Code Playgroud)

但这会产生错误:

Exception in thread "main" org.apache.spark.sql.AnalysisException: 'save' does not support bucketing right now;
Run Code Online (Sandbox Code Playgroud)

有没有其他方法可以保存bucketBy的结果?

apache-spark apache-spark-sql

5
推荐指数
1
解决办法
4620
查看次数