Spark 中是否有类似 Glue“书签”功能的功能可以在工作级别进行跟踪?

VE8*_*E88 6 apache-spark spark-streaming pyspark aws-glue incremental-load

我想看看 Spark 中是否有类似 AWS Glue“书签”的东西。我知道 Spark 中有一个检查点,它适用于单个数据源。在 Glue 中,我们可以使用书签来使用单个书签来跟踪作业中涉及的不同表中的所有文件。

Rob*_*dey 0

您可以将 Spark Structured Streaming 与Trigger.Once()结合使用。

该流本质上只会运行一个微流批次,这与单个批次相同,同时利用检查点功能来跟踪已处理的文件