小编Ric*_*ker的帖子

对spark数据帧的同一列进行多次聚合操作

我有三个字符串类型的数组包含以下信息:

  • groupBy数组:包含我想要对数据进行分组的列的名称.
  • aggregate array:包含我想要聚合的列的名称.
  • operations array:包含我想要执行的聚合操作

我正在尝试使用spark数据帧来实现这一目标.Spark数据框提供了agg(),您可以在其中传递Map [String,String](列名和相应的聚合操作)作为输入,但是我想对数据的同一列执行不同的聚合操作.有关如何实现这一目标的任何建议?

dataframe apache-spark apache-spark-sql

28
推荐指数
3
解决办法
2万
查看次数

如何在保留顺序的同时将RDD的内容替换为另一个?

我有两个RDD,一个(a, b, a, c, b, c, a)和另一个 - 配对的RDD ((a, 0), (b, 1), (c, 2)).

我想分别用0,1,2(分别是第二个RDD中的键a,b,c的值)替换a第一个RDD中的s,bs和cs.我想在第一个RDD中保留事件的顺序.

如何在Spark中实现它?

apache-spark

1
推荐指数
1
解决办法
787
查看次数

标签 统计

apache-spark ×2

apache-spark-sql ×1

dataframe ×1