PySpark 中 CPU 消耗异常高

Mat*_*get 5 apache-spark pyspark

我们有一个在 Mesos 集群上运行的中等规模的 PySpark 程序。

我们用spark.executor.cores=8和运行程序spark.cores.max=24。每个 Mesos 节点有 12 个 vcpu，因此每个节点上只启动 1 个 executor。

程序运行完美，结果正确。

然而，问题是每个执行器消耗的 CPU 比 8 多得多。 CPU 负载经常达到 25 或更多。通过该htop程序，我们看到 8 个 python 进程按预期启动。但是，每个 Python 会产生多个线程，因此每个 Python 进程最多可以使用 300% 的 CPU。

这种行为在共享集群部署中很烦人。

有人可以解释这种行为吗？pyspark 启动的这 3 个附加线程是什么？

附加信息：

我们在 Spark 操作中使用的函数不是多线程的
我们在本地模式下有相同的行为，在 Mesos 之外
我们使用 Spark 2.1.1 和 Python 3.5
除了通常的基本服务之外，没有其他东西在 Mesos 节点上运行
在我们的测试平台中，Mesos 节点实际上是 OpenStack VM

归档时间：	8 年，9 月前
查看次数：	1015 次
最近记录：	8 年，9 月前

如何在PySpark中的不同线程中在一个Sparkcontext中运行多个作业？ 17

更多相关链接

执行spark-shell时的NoClassDefFoundError com.apache.hadoop.fs.FSDataInputStream 36

使用Yarn客户端或任何其他方式从Spring Web应用程序运行Apache spark作业 7

在 Spark Scala UDF 中定义返回值 6

PySpark 错误：AnalysisException：'无法解析列名 6

需要了解 Dataframe Spark 中的分区细节 5

如何在Spark应用程序中显示语句序列的逐步执行？ 5

如何将两个 Spark Dataframe 与可以不同的结构类型字段合并？ 5

如何在 PySpark 中使用 .contains() 按单个或多个子字符串进行过滤？ 4

将Spark数据帧转换为Pandas/R数据帧的要求 3

如何在C*(Cassandra)中执行高效的SELECT*查询 2

我应该在MySQL中使用日期时间或时间戳数据类型吗？ 2598

JavaScript对象的长度 2224

JavaScript中的'new'关键字是什么？ 1684

按值复制数组 1638

如何检查字符串是否为数字(浮点数)？ 1519

什么是C++ 11中的lambda表达式？ 1408

如何按多列对数据帧进行排序？ 1266

如何从GET参数中获取值？ 1255

将ArrayList <String>转换为String []数组 1102

如何使用git merge --squash？ 1101