Pyspark 中的模型概率校准

eko*_*kmz 6 calibration pyspark imbalanced-data

我正在使用 PySpark 为业务问题实施流失分类模型，但我拥有的数据集不平衡。因此，当我训练模型时，我随机选择了一个 1 和 0 数量相等的数据集。然后我将模型应用于实时数据，预测的 1 和 0 的数量显然相等。

现在，我需要校准我的训练模型。但是我找不到在 PySpark 中做到这一点的方法。有没有人知道如何在 PySpark 中校准模型，可能类似于 CalibratedClassifierCV ？

归档时间：	5 年，8 月前
查看次数：	141 次
最近记录：	5 年，8 月前

通过以字符串格式减去两个日期时间列来计算持续时间 28

PySpark从执行程序登录 15

通过行中非空元素的计数对PySpark Dataframe进行统一分区 10

Jupyter和PySpark:如何运行多个笔记本电脑 8

apache arrow 如何促进“跨系统通信无开销”？ 7

我们如何使用SQL-esque"LIKE"标准加入两个Spark SQL数据帧？ 5

没有列参数的df.repartition会分区什么？ 5

PySpark：使用另一个数据框插入或更新数据框 3

用于不平衡二元分类的过采样数据的过程 2

Pyspark udf在条件定义上返回一列,接受多个列作为输入 1

仅存储使用Git更改的多个文件中的一个文件？ 2895

如何在特定索引(JavaScript)的数组中插入项？ 2709

忽略已提交到Git存储库的文件 2429

如何检测元素外部的单击？ 2367

如何递归计算目录中的所有代码行？ 1536

.gitignore被Git忽略了 1407

Promises和Observables有什么区别？ 1291

"this"关键字如何运作？ 1243

如何在同一元素上组合背景图像和CSS3渐变？ 1203

如何在Git中仅提交区分大小写的文件名更改？ 1157