SPARK可以正确使用多核吗？

Question

我读过火花,我发现火花是用scala写的.由于scala是一种函数式语言,如erlang,它可以正确使用多核.那是对的吗？

我想知道我是否可以在具有多核处理器的分布式系统中使用spark.单个任务可以同时使用所有核心吗？我读过YARN会在每个不同的任务上分配不同的核心,但在这种情况下,它只是一个任务

并且,它是否足以在JAVA(hadoop)中使用多线程编程来使用每台计算机中的所有内核？既然linux调度程序是基于线程的呢？

Answer 1

是的,它可以,因为这是其声明的目的 - 分割和并行化可并行化的内容.您甚至可以指定每个执行程序使用的内存量.

但是,某些任务无法并行化,这就是为什么有时Spark只占用一个核心.

如果您使用Spark shell,请确保设置要使用的核心数,正如在此问题的答案中所述,为什么Spark不在本地计算机上使用所有核心