Han*_*koo 10 multithreading multicore apache-spark
我读过火花,我发现火花是用scala写的.由于scala是一种函数式语言,如erlang,它可以正确使用多核.那是对的吗?
我想知道我是否可以在具有多核处理器的分布式系统中使用spark.单个任务可以同时使用所有核心吗?我读过YARN会在每个不同的任务上分配不同的核心,但在这种情况下,它只是一个任务
并且,它是否足以在JAVA(hadoop)中使用多线程编程来使用每台计算机中的所有内核?既然linux调度程序是基于线程的呢?
是的,它可以,因为这是其声明的目的 - 分割和并行化可并行化的内容.您甚至可以指定每个执行程序使用的内存量.
但是,某些任务无法并行化,这就是为什么有时Spark只占用一个核心.
如果您使用Spark shell,请确保设置要使用的核心数,正如在此问题的答案中所述,为什么Spark不在本地计算机上使用所有核心
来源:官方Spark文档https://spark.apache.org/docs/latest/configuration.html
| 归档时间: |
|
| 查看次数: |
7356 次 |
| 最近记录: |