小编Pet*_*bčo的帖子

Apache Spark - dataset.dropDuplicates() 是否保留分区？

我知道有几个转换可以保留父分区（如果之前设置过 - 例如mapValues），而有些转换不保留它（例如map）。

我使用 Spark 2.2 的数据集 API。我的问题是 -dropDuplicates转换是否保留分区？想象一下这段代码：

case class Item(one: Int, two: Int, three: Int)

import session.implicits._
val ds = session.createDataset(List(Item(1,2,3), Item(1,2,3)))

val repart = ds.repartition('one, 'two).cache()

repart.dropDuplicates(List("one", "two")) // will be partitioning preserved?

Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql

Pet*_*bčo

2018 01-16

4
推荐指数

1
解决办法

1360
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

scala ×1

Apache Spark - dataset.dropDuplicates() 是否保留分区？

标签 统计

小编Pet_bčo的帖子

标签统计