什么是spark.python.worker.memory?

cnn*_*znn 5 apache-spark pyspark

谁能给我更准确地描述这个 Spark 参数以及它如何影响程序执行?我无法从文档中确切地看出这个参数“在幕后”的作用。

小智 3

该参数影响 Python 工作线程的内存限制。如果Python工作进程的RSS大于内存限制,那么它会将数据从内存溢出到磁盘,这会降低内存利用率,但通常是一个昂贵的操作。

请注意,该值适用于每个 Python 工作线程,并且每个执行程序将有多个工作线程。

如果您想深入了解,请查看 Spark 源代码树中的 python/pyspark 目录,例如实现ExternalMergerhttps://github.com/apache/spark/blob/41afa16500e682475eaa80e31c0434b7ab66abcb/python/pyspark/shuffle .py#L280