如何使用带有spark数据流结构的非基于时间的窗口?

Kah*_*ron 6 spark-streaming apache-spark-sql pyspark

我正在尝试使用带有 Spark 和 Kafka 的结构化流媒体窗口。我在非基于时间的数据上使用窗口,所以我收到此错误:

'Non-time-based windows are not supported on streaming DataFrames/Datasets;;\nWindow
Run Code Online (Sandbox Code Playgroud)

这是我的代码:

'Non-time-based windows are not supported on streaming DataFrames/Datasets;;\nWindow
Run Code Online (Sandbox Code Playgroud)

所以我正在寻找在非基于时间的数据上使用窗口的提示或参考......

Pab*_*ego 1

Windows 总是需要基于时间的数据,但Spark Structured Streaming事实并非如此。

您可以Spark Structured Streaming使用触发器“as_soon_as_posible”进行创建,并且可以按窗口对数据进行分组,分组是按时间进行的。

参考:https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#window-operations-on-event-time