Spark Structured Streaming如何处理背压?

Ani*_*ino 6 backpressure apache-spark spark-structured-streaming

我正在分析Spark Structured Streaming的背压功能.有谁知道细节?是否可以通过代码调整进程传入记录?谢谢

zsx*_*ing 9

如果您的意思是在Structured Streaming中动态更改每个内部批处理的大小,则为NO.结构化流中没有基于接收者的源,因此完全没有必要.从另一个角度来看,Structured Streaming无法做到真正的背压,因为,例如,Spark无法告诉其他应用程序减慢将数据推入Kafka的速度.

通常,Structured Streaming将默认尝试尽快处理数据.每个源中都有一些选项可用于控制处理速率,例如maxFilesPerTrigger在文件源和maxOffsetsPerTriggerKafka源中.阅读以下链接以获取更多详细信息:

http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html