在Spark结构化流中组合窗口（groupBy）和mapGroupsWithState（groupByKey）

tmi*_*miu 7 apache-spark spark-structured-streaming

当前使用Spark 2.2.0结构化流。

给定带有水印的带有时间戳的数据流，是否有一种方法可以将（1）groupBy通过时间戳字段和其他分组条件实现开窗的操作与（2）相结合groupByKey，以便应用于mapGroupsWithState自定义会话的组？

还是我必须以某种方式将开窗和其他分组逻辑嵌入其中groupByKey？

对于上下文：

groupBy在数据集上支持窗口化的calling 返回一个没有的RelationalGroupedDatasetmapGroupsWithState。
调用groupByKey（支持mapGroupsWithState）返回KeyValueGroupedDataset，但不支持窗口！

编辑：

SPARK-21641现在已跟踪该问题- 在Spark Structured Streaming中组合窗口（groupBy）和mapGroupsWithState（groupByKey）。

归档时间：	8 年，6 月前
查看次数：	780 次
最近记录：	7 年，3 月前

地图无法在scala中序列化？ 27

SparkSQL,Thrift Server和Tableau 8

结构化流如何执行单独的流式查询(并行或顺序)？ 8

如何访问Spark RandomForest中的各个预测？ 5

Spark MLlib 中的朴素贝叶斯 5

Pyspark将多列合并成一个json列 4

Pyspark如何在数据框中添加行号而不改变顺序？ 4

如何将Spark的累加器传递给函数？ 3

如何对 Spark 数据帧中嵌套数组中结构的值求和？ 2

新类Scala中的“自我”是什么意思 1

为什么处理排序数组比处理未排序数组更快？ 23665

如何检查数组是否包含JavaScript中的对象？ 3778

如何使用scp将文件夹从远程复制到本地？ 2562

是否有标准函数来检查JavaScript中的null,undefined或blank变量？ 2088

PHP'foreach'如何实际工作？ 1926

Git拒绝合并关于rebase的无关历史 1862

在单个SQL查询中插入多行？ 1604

如何找出哪个DOM元素具有焦点？ 1234

Python类继承对象 1095

如何列出包含给定提交的分支？ 1029