Spark 任务大小太大

sha*_*har 5 logistic-regression apache-spark

我使用 LBFGS 逻辑回归将示例分类为两个类别之一。当我训练模型时,我收到很多此类警告 -

WARN scheduler.TaskSetManager: Stage 132 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB.
WARN scheduler.TaskSetManager: Stage 134 contains a task of very large size (102 KB). The maximum recommended task size is 100 KB.
WARN scheduler.TaskSetManager: Stage 136 contains a task of very large size (109 KB). The maximum recommended task size is 100 KB.
Run Code Online (Sandbox Code Playgroud)

我有大约 94 个特征和大约 7500 个训练示例。为了将任务大小分解成更小的块,我还应该传递一些其他参数吗?

另外,这只是一个警告,在最坏的情况下可以忽略吗?还是会妨碍训练?

我这样称呼我的教练——

val lr_lbfgs = new LogisticRegressionWithLBFGS().setNumClasses(2)
lr_lbfgs.optimizer.setRegParam(reg).setNumIterations(numIterations)
val model = lr_lbfgs.run(trainingData)
Run Code Online (Sandbox Code Playgroud)

另外,我的驱动程序和执行程序内存是20G我设置为参数的spark-submit

use*_*931 3

Spark发送需要对执行器可见的每个变量和方法的副本;此警告意味着这些对象总共超过 100 KB。如果此警告不会明显影响性能,您可以安全地忽略它,或者您可以考虑将某些变量标记为广播变量