如何检查 PySpark 使用了多少个核心?

som*_*ere 6 ubuntu virtualbox cpu-cores apache-spark pyspark

我已经安装了VirtualBox(Ubuntu 18.04.2 64位)和PySpark 2.4.0。当我创建 VB 时,我将 4 个 CPU 设置为最大。

我应该如何检查 Spark 使用了多少个核心?

Jac*_*ski 8

这取决于描述要使用的运行时环境(集群管理器)的主 URL

由于这是一个面向低级基础设施的事情,您可以通过查询实例来找到答案SparkContext

例如,如果是这样local[*],则意味着您希望使用本地 JVM 上可用的尽可能多的 CPU(明星部分)。

$ ./bin/pyspark
Python 2.7.15 (default, Feb 19 2019, 09:17:37)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.11.45.5)] on darwin
...
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.0
      /_/

Using Python version 2.7.15 (default, Feb 19 2019 09:17:37)
SparkSession available as 'spark'.
>>> print sc.master
local[*]
>>> print sc.defaultParallelism
8
Run Code Online (Sandbox Code Playgroud)