Spark - RelationalGroupedDataset与KeyvalueGroupedDataset？我什么时候应该使用它们？

Tyl*_*归玉门 11 aggregation apache-spark apache-spark-dataset

Dataset在Spark中进行分组时,有两种方法:groupBy和groupByKey[K].

groupBy返回RelationalGroupedDataset,同时groupByKey[K]返回KeyvalueGroupedDataset.

它们之间有什么区别？

在什么情况下我应该选择一个而不是另一个？

为什么我的问题是关于"Dataset vs DataFrame"的问题的副本？我不明白.这显然是完全不同的事情!我的问题非常具体而非通用.

归档时间：	7 年，11 月前
查看次数：	478 次
最近记录：	7 年，11 月前

Spark中的DataFrame,Dataset和RDD之间的区别 228

Spark 2.0 Dataset vs DataFrame 23

更多相关链接

使用连接时,Spark迭代时间呈指数级增长 20

如何使用SparkConf连接到远程Cassandra集群时传递"需要身份验证"？ 8

Spark负载模型并继续培训 6

Spark:我已失去参考的unpersist RDD 6

Pyspark如何从word2vec单词嵌入中计算Doc2Vec？ 5

如何在PySpark中区分两个RDD？ 4

使用Spark解码一组二进制文件 3

Spark：不支持的文字类型类 scala.collection.immutable.Nil$ List() 3

UDF的Pyspark错误：py4j.Py4JException：方法__getnewargs __（[]）不存在错误 2

带有初始值的 zipWithIndex rdd 1

为什么减去这两次(在1927年)给出一个奇怪的结果？ 6628

C#中字符串和字符串有什么区别？ 6250

查找当前目录和文件的目录 2007

如何在Node.js中退出 1762

常规演员与static_cast与dynamic_cast 1661

如何从其他线程更新GUI？ 1331

为什么我们需要C++中的虚函数？ 1223

为什么有两种方法可以在Git中取消暂存文件？ 1109

Python中的null对象？ 1097

自我的目的是什么？ 1061