Pyspark 中的模型概率校准

eko*_*kmz 6 calibration pyspark imbalanced-data

我正在使用 PySpark 为业务问题实施流失分类模型,但我拥有的数据集不平衡。因此,当我训练模型时,我随机选择了一个 1 和 0 数量相等的数据集。然后我将模型应用于实时数据,预测的 1 和 0 的数量显然相等。

现在,我需要校准我的训练模型。但是我找不到在 PySpark 中做到这一点的方法。有没有人知道如何在 PySpark 中校准模型,可能类似于 CalibratedClassifierCV ?