我正在尝试旋转原始数据大小 6 GB 的数据帧,它过去需要 30 分钟的时间(聚合函数sum):
x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
.pivot("g")
.agg(sum(raw_df("h")
.cast(DoubleType))
.alias(""), sum(raw_df("i"))
.alias("i"))
Run Code Online (Sandbox Code Playgroud)
当我将聚合函数更改为第一个时,它开始需要 1.5 小时。您能否帮助我理解为什么聚合函数会影响性能以及如何提高性能?
如何清除Apache NiFi中FetchDistributedMapCache处理器的缓存?我尝试删除持久化目录,并尝试一起提供一个新目录,但它仍然获取旧数据。谢谢你的帮助。