火花执行者失败了

Question

火花执行者失败了

pen*_*eng 13 scala out-of-memory executor apache-spark

我正在使用databricks spark cluster(AWS),并测试我的scala实验.使用LogisticRegressionWithLBFGS算法训练10 GB数据时遇到了一些问题.我遇到问题的代码块如下:

import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
val algorithm = new LogisticRegressionWithLBFGS()
algorithm.run(training_set)

Run Code Online (Sandbox Code Playgroud)

首先,我有很多执行程序丢失失败和java内存问题,然后我用更多分区重新分区我的training_set并且内存不足问题已经消失,但仍然得到执行程序丢失失败.

我的群集共有72个核心和500GB内存.任何人都能对此有所了解吗？

Answer 1

Bar*_*475 5

LBFGS使用密集向量在内部存储beta(特征权重),一切都在内存中.因此,无论训练集中的特征稀疏,特征的总数都是值得注意的.

因此,要解决此问题,用户应增加执行程序内存或限制训练集中的功能总数.

归档时间：	10 年，10 月前
查看次数：	4090 次
最近记录：	10 年，7 月前