小编Mur*_*ali的帖子

在 PySpark 中合并两个数据帧

我有两个数据帧,DF1 和 DF2,DF1 是主存储来自 DF2 的任何附加信息。

假设 DF1 具有以下格式,

Item Id | item      | count
---------------------------
1       | item 1    | 2
2       | item 2    | 3
1       | item 3    | 2
3       | item 4    | 5
Run Code Online (Sandbox Code Playgroud)

DF2 包含 DF1 中已经存在的 2 个项目和两个新条目。(itemId和item被认为是一个单独的组,可以作为join的key)

Item Id | item      | count
---------------------------
1       | item 1    | 2
3       | item 4    | 2
4       | item 4    | 4
5       | item 5    | 2
Run Code Online (Sandbox Code Playgroud)

我需要组合两个数据框,以便增加现有项目计数并插入新项目。

结果应该是这样的:

Item …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark pyspark-sql

1
推荐指数
1
解决办法
3万
查看次数

标签 统计

apache-spark ×1

pyspark ×1

pyspark-sql ×1

python ×1