Spark Structured Streaming如何处理背压？

Question

我正在分析Spark Structured Streaming的背压功能.有谁知道细节？是否可以通过代码调整进程传入记录？谢谢

Answer 1

如果您的意思是在Structured Streaming中动态更改每个内部批处理的大小,则为NO.结构化流中没有基于接收者的源,因此完全没有必要.从另一个角度来看,Structured Streaming无法做到真正的背压,因为,例如,Spark无法告诉其他应用程序减慢将数据推入Kafka的速度.

通常,Structured Streaming将默认尝试尽快处理数据.每个源中都有一些选项可用于控制处理速率,例如maxFilesPerTrigger在文件源和maxOffsetsPerTriggerKafka源中.阅读以下链接以获取更多详细信息: