如何计算 pyspark 数据框中列表列中元素的频率？

Question

如何计算 pyspark 数据框中列表列中元素的频率？

Dro*_*ird 3 list frequency-analysis apache-spark-sql pyspark

我有一个 pyspark 数据框，如下所示，

data2 = [("James",["A x","B z","C q","D", "E"]),
    ("Michael",["A x","C","E","K", "D"]),
    ("Robert",["A y","R","B z","B","D"]),
    ("Maria",["X","A y","B z","F","B"]),
    ("Jen",["A","B","C q","F","R"])
  ]

 
df2 = spark.createDataFrame(data2, ["Name", "My_list" ])

df2
    Name    My_list
0   James   [A x, B z, C q, D, E]
1   Michael     [A x, C, E, K, D]
2   Robert  [A y, R, B z, B, D]
3   Maria   [X, A y, B z, F, B]
4   Jen     [A, B, C q, F, R]

Run Code Online (Sandbox Code Playgroud)

我希望能够计算“My_list”列中的元素并按降序排序？例如，

'A x' appeared -> P times, 
'B z' appeared -> Q times, and so on.

Run Code Online (Sandbox Code Playgroud)

有人可以在这上面放一些灯吗？预先非常感谢您。

Answer 1

Ann*_* K. 5

以下命令分解数组，并提供每个元素的计数

import pyspark.sql.functions as F

df_ans = (df2
           .withColumn("explode", F.explode("My_list"))
           .groupBy("explode")
           .count()
           .orderBy(F.desc("count"))

Run Code Online (Sandbox Code Playgroud)

结果是

归档时间：	4 年，3 月前
查看次数：	2788 次
最近记录：	4 年，3 月前