小编Gee*_*ngh的帖子

Spark Pivot Groupby 性能非常慢

我正在尝试旋转原始数据大小 6 GB 的数据帧，它过去需要 30 分钟的时间（聚合函数sum）：

x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
                .pivot("g")
                .agg(sum(raw_df("h")
                .cast(DoubleType))
                .alias(""), sum(raw_df("i"))
                .alias("i"))

Run Code Online (Sandbox Code Playgroud)

当我将聚合函数更改为第一个时，它开始需要 1.5 小时。您能否帮助我理解为什么聚合函数会影响性能以及如何提高性能？

pivot group-by dataframe apache-spark

Gee*_*ngh

2018 05-11

9
推荐指数

1
解决办法

6639
查看次数

清除 FetchDistributedMapCache 处理器的缓存

如何清除Apache NiFi中FetchDistributedMapCache处理器的缓存？我尝试删除持久化目录，并尝试一起提供一个新目录，但它仍然获取旧数据。谢谢你的帮助。

apache-nifi

Gee*_*ngh

lucky-day

5
推荐指数

1
解决办法

2735
查看次数

标签统计

apache-nifi ×1

apache-spark ×1

dataframe ×1

group-by ×1

pivot ×1

Spark Pivot Groupby 性能非常慢

清除 FetchDistributedMapCache 处理器的缓存

标签 统计

小编Gee_ngh的帖子

标签统计