小编Gee*_*ngh的帖子

Spark Pivot Groupby 性能非常慢

我正在尝试旋转原始数据大小 6 GB 的数据帧,它过去需要 30 分钟的时间(聚合函数sum):

x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
                .pivot("g")
                .agg(sum(raw_df("h")
                .cast(DoubleType))
                .alias(""), sum(raw_df("i"))
                .alias("i"))
Run Code Online (Sandbox Code Playgroud)

当我将聚合函数更改为第一个时,它开始需要 1.5 小时。您能否帮助我理解为什么聚合函数会影响性能以及如何提高性能?

pivot group-by dataframe apache-spark

9
推荐指数
1
解决办法
6639
查看次数

清除 FetchDistributedMapCache 处理器的缓存

如何清除Apache NiFi中FetchDistributedMapCache处理器的缓存?我尝试删除持久化目录,并尝试一起提供一个新目录,但它仍然获取旧数据。谢谢你的帮助。

apache-nifi

5
推荐指数
1
解决办法
2735
查看次数

标签 统计

apache-nifi ×1

apache-spark ×1

dataframe ×1

group-by ×1

pivot ×1