ksh*_*nha 7 python azure apache-spark pyspark azure-synapse
我在 Azure synapse Analytics 中使用 pyspark 代码创建了 3 个不同的笔记本。笔记本正在使用 Spark 池运行。所有 3 台笔记本都只有一个 Spark 池。当这 3 个笔记本单独运行时,默认情况下,Spark 池会为所有 3 个笔记本启动。
我面临的问题与火花池有关。每个笔记本启动需要 10 分钟。分配的 Vcore 是 4,执行器是 1。有人可以帮我知道如何在 azure synapse Analytics 中提高 Spark 池的启动吗?
CHE*_*SFT -5
Apache Spark 池作业的性能取决于多种因素。这些性能因素包括:
您可能面临的常见挑战包括:
还有许多优化可以帮助您克服这些挑战,例如缓存和允许数据倾斜。
以下文章在 Azure Synapse Analytics 中优化 Apache Spark 作业(预览版)介绍了常见的 Spark 作业优化和建议。