如何在Spark中显示KeyValueGroupedDataset？

Question

如何在Spark中显示KeyValueGroupedDataset？

pyt*_*nic 8 scala dataset apache-spark rdd

我正在尝试在Spark中学习数据集.我无法弄清楚的一件事是如何显示KeyValueGroupedDataset,因为show它不起作用.此外,什么是一个等价map的KeyValuGroupedDataSet？如果有人举一些例子,我将不胜感激.

Answer 1

pyt*_*nic 12

好的,我从这里和这里给出的例子中得到了这个想法.我在下面给出了一个我写过的简单例子.

val x = Seq(("a", 36), ("b", 33), ("c", 40), ("a", 38), ("c", 39)).toDS
x: org.apache.spark.sql.Dataset[(String, Int)] = [_1: string, _2: int]

val g = x.groupByKey(_._1)
g: org.apache.spark.sql.KeyValueGroupedDataset[String,(String, Int)] = ...

val z = g.mapGroups{case(k, iter) => (k, iter.map(x => x._2).toArray)}
z: org.apache.spark.sql.Dataset[(String, Array[Int])] = [_1: string, _2: array<int>]

z.show
+---+--------+
| _1|      _2|
+---+--------+
|  c|[40, 39]|
|  b|    [33]|
|  a|[36, 38]|
+---+--------+

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，9 月前
查看次数：	3233 次
最近记录：	8 年，9 月前