如何在 pyspark datafarme 中查找重复的列值

Question

如何在 pyspark datafarme 中查找重复的列值

我正在尝试从 pyspark 中的数据帧中查找重复的列值。

例如，我有一个包含单列“A”的数据框，其值如下：

==
A
==
1
1
2
3
4
5
5

Run Code Online (Sandbox Code Playgroud)

我期待如下输出（仅需要重复的值）

==
A
==
1
5

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ste*_*ven 7

与@Yuva相同的答案，但使用内置函数：

df = sqlContext.createDataFrame([(1,),(1,),(2,),(3,),(4,),(5,),(5,)],('A',))

df.groupBy("A").count().where("count > 1").drop("count").show()

+---+
|  A|
+---+
|  5|
|  1|
+---+

Run Code Online (Sandbox Code Playgroud)

Answer 2

Yuv*_*uva 2

您可以尝试一下，看看是否有帮助？

df = sqlContext.createDataFrame([(1,),(1,),(2,),(3,),(4,),(5,),(5,)],('A',))
df.createOrReplaceTempView(df_tbl)
spark.sql("select A, count(*) as COUNT from df_tbl group by a having COUNT > 1").show()

+---+-----+
|  A|COUNT|
+---+-----+
|  5|2    |
|  1|2    |
+---+-----+

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，4 月前
查看次数：	12311 次
最近记录：	6 年，4 月前