小编Gar*_*y C的帖子

PySpark Dataframe 将列融合为行

正如主题所描述的，我有一个 PySpark 数据框，我需要将三列融合成行。每列基本上代表一个类别中的一个事实。最终目标是将数据聚合到每个类别的单个总数中。

这个数据帧中有数千万行，所以我需要一种方法来在 Spark 集群上进行转换而不将任何数据带回驱动程序（在这种情况下为 Jupyter）。

这是我的几个商店的数据框的摘录： +-----------+----------------+-----------------+----------------+ | store_id |qty_on_hand_milk|qty_on_hand_bread|qty_on_hand_eggs| +-----------+----------------+-----------------+----------------+ | 100| 30| 105| 35| | 200| 55| 85| 65| | 300| 20| 125| 90| +-----------+----------------+-----------------+----------------+

这是所需的结果数据帧，每个商店多行，其中原始数据帧的列已融合到新数据帧的行中，每个原始列在新类别列中占一行： +-----------+--------+-----------+ | product_id|CATEGORY|qty_on_hand| +-----------+--------+-----------+ | 100| milk| 30| | 100| bread| 105| | 100| eggs| 35| | 200| milk| 55| | 200| bread| 85| | 200| eggs| 65| | 300| milk| 20| | 300| bread| 125| | 300| eggs| 90| +-----------+--------+-----------+

python aggregate dataframe melt pyspark

Gar*_*y C

2019 03-28

5
推荐指数

2
解决办法

8400
查看次数