Spark 在单台计算机上以独立模式运行：是否值得通过 docker 容器（或其他方式）将其分为主节点和工作节点？

Question

Spark 在单台计算机上以独立模式运行：是否值得通过 docker 容器（或其他方式）将其分为主节点和工作节点？

Mar*_*han 3 docker apache-spark kubernetes minikube

我目前只有一台电脑，不会有另一台。

我在其 CPU 核心上运行Sparkmaster=local[5] ：，直接使用它：我设置了spark-core和spark-sql的依赖项，几乎没有进行任何其他配置，并且我的程序立即启动。当然，这很舒服。
但我是否应该尝试在我的计算机上通过Docker容器或minikube ( Kubernetes ) 创建一个包含 master 和一些worker 的架构？

解决方案#2（及其所需的所有设置）是否会以更好的性能奖励我，因为Spark确实设计为以这种方式工作，即使在单台计算机上也是如此，

或者我会浪费一些时间，因为我当前运行它的模式，无需网络使用，无需数据局部性总是会给我更好的性能，并且解决方案＃1将始终是单台计算机上最好的？

我的假设是#1没问题。但我对此没有真正的衡量标准。没有比较来源。谁体验过在一台计算机上执行操作的两种方式？

Answer 1

Ale*_*Ott 6

这实际上取决于您的目标 - 如果您总是在具有本地 master 的单个节点上运行 Spark 代码，那么就使用它。但是，如果您打算在多台机器上以分布式模式运行生成的代码，那么使用 Docker 模拟集群可能会很有用，因为您将使代码以真正的分布式方式运行，并且您将能够发现并不总是存在的问题当您使用本地主机运行代码时会发现。

您可以考虑在 Kubernetes 上使用 Spark，例如通过 minikube，而不是直接使用 Docker（虽然设置起来可能很棘手，但仍然可行），Google 找到了很多关于此主题的文章。

归档时间：	5 年，2 月前
查看次数：	777 次
最近记录：	5 年，1 月前