Spark 池在 azure synapse Analytics 中启动需要时间

ksh*_*nha 7 python azure apache-spark pyspark azure-synapse

我在 Azure synapse Analytics 中使用 pyspark 代码创建了 3 个不同的笔记本。笔记本正在使用 Spark 池运行。所有 3 台笔记本都只有一个 Spark 池。当这 3 个笔记本单独运行时,默认情况下,Spark 池会为所有 3 个笔记本启动。

我面临的问题与火花池有关。每个笔记本启动需要 10 分钟。分配的 Vcor​​e 是 4,执行器是 1。有人可以帮我知道如何在 azure synapse Analytics 中提高 Spark 池的启动吗?

CHE*_*SFT -5

Apache Spark 池作业的性能取决于多种因素。这些性能因素包括:

  • 您的数据如何存储
  • 集群的配置方式(小型、中型、大型)
  • 处理数据时使用的操作。

您可能面临的常见挑战包括:

  • 由于执行器大小不正确而导致内存限制。
  • 长时间运行的操作
  • 导致笛卡尔运算的任务。

还有许多优化可以帮助您克服这些挑战,例如缓存和允许数据倾斜。

以下文章在 Azure Synapse Analytics 中优化 Apache Spark 作业(预览版)介绍了常见的 Spark 作业优化和建议。

  • 不幸的是,这个答案甚至没有考虑到这个问题。您描述的是集群的_性能_而不是它的初始化时间,我个人认为初始化时间非常慢...(需要 5 秒才能执行的任务必须等待超过 3 分钟才能真正启动 Spark 本身...???) (5认同)