小编sal*_*nbw的帖子

删除spark数据帧中重复的所有记录

我有一个包含多列的spark数据帧.我想找出并删除列中具有重复值的行(其他列可以不同).

我尝试使用dropDuplicates(col_name)但它只会删除重复的条目,但仍然在数据帧中保留一条记录.我需要的是删除最初包含重复条目的所有条目.

我使用的是Spark 1.6和Scala 2.10.

scala duplicates apache-spark apache-spark-sql spark-dataframe

4
推荐指数
1
解决办法
7170
查看次数

Spark数据集超出了总RAM大小

我最近在进行火花工作,遇到了一些我仍然无法解决的查询。

假设我有一个100GB的数据集,而我的群集内存大小为16 GB。

现在,我知道在简单读取文件并将其保存在HDFS中的情况下,Spark会对每个分区执行此操作。对100GB数据执行排序或聚合转换时会发生什么?由于排序时需要全部数据,它将如何处理100GB的内存?

我已经浏览了下面的链接,但这仅告诉我们在持久存在的情况下spark会执行什么操作,我正在寻找的是Spark聚合或对大于ram大小的数据集进行排序。

Spark RDD-分区是否始终在RAM中?

任何帮助表示赞赏。

hadoop hdfs apache-spark

2
推荐指数
1
解决办法
738
查看次数