每组的百分比计数和使用 pyspark 的枢轴

Question

每组的百分比计数和使用 pyspark 的枢轴

bel*_*ous 3 sql apache-spark pyspark jupyter-notebook

我的数据框包含 from 和 to 列。两者都是国家/地区代码，它们显示起始国家/地区和目的地国家/地区。

+----+---+
|from| to|
+----+---+
|  TR| tr|
|  TR| tr|
|  TR| tr|
|  TR| gr|
|  ES| tr|
|  GR| tr|
|  CZ| it|
|  LU| it|
|  AR| it|
|  DE| it|
|  IT| it|
|  IT| it|
|  US| it|
|  GR| fr|

Run Code Online (Sandbox Code Playgroud)

有没有办法获得一个数据框，显示每个原产国的每个目的地国家的百分比，列中包含所有目的地国家/地区代码？

该百分比必须在同一原产国（行）的总目的地之外。

例如

+----+---+----+---+----+
|from| tr|  it| fr|  gr|
+----+---+----+---+----+
|  TR|0.6|0.12|0.2|0.09|
|  IT|0.3| 0.3|0.3| 0.8|
|  US|0.1|0.34|0.3| 0.2|

Run Code Online (Sandbox Code Playgroud)

Answer 1

zer*_*323 7

您可以pivot使用count和调整结果。首先是一些进口：

from pyspark.sql.functions import col, lit, coalesce
from itertools import chain

Run Code Online (Sandbox Code Playgroud)

查找级别：

levels = [x for x in chain(*df.select("to").distinct().collect())]

Run Code Online (Sandbox Code Playgroud)

pivot：

pivoted = df.groupBy("from").pivot("to", levels).count()

Run Code Online (Sandbox Code Playgroud)

compute 行数表达式：

row_count = sum(coalesce(col(x), lit(0)) for x in levels)

Run Code Online (Sandbox Code Playgroud)

创建调整列的列表：

adjusted = [(col(c) / row_count).alias(c) for c in levels]

Run Code Online (Sandbox Code Playgroud)

和select：

pivoted.select(col("from"), *adjusted)

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，1 月前
查看次数：	3772 次
最近记录：	9 年，1 月前