如何提高分类机器学习模型的真阳性率?

Paw*_*sad 1 python statistics machine-learning data-science

我是机器学习新手,我有一个数据集,该数据集具有高度不平衡的类(以负类为主),并且包含超过 2K 的数字特征,目标是 [0,1]。我训练了一个逻辑回归,虽然我得到了 89% 的准确率,但从混淆矩阵来看,发现模型的 True Positive 非常低。以下是我的模型的分数

Accuracy Score : 0.8965989500114129

Precision Score : 0.3333333333333333

Recall Score : 0.029545454545454545

F1 Score : 0.05427974947807933

如何提高我的真实积极率?我应该使用不同的分类模型吗?

我尝试过 PCA 并将我的数据表示为 2 个组件,它将模型准确率提高到 90%(大约),但真实阳性率再次下降

Jos*_*din 5

做这件事有很多种方法 :

  • 您可以更改模型并测试其性能是否更好
  • 您可以修复不同的预测阈值:这里我猜您预测 0 如果回归的输出 <0.5,您可以将其更改0.50.25例如。它会提高您的真阳性率,但当然,代价是更多的误报。
  • 您可以复制训练集中的每个正面示例,以便您的分类器感觉类别实际上是平衡的。
  • 您可以更改分类器的损失,以惩罚更多的假阴性(这实际上非常接近于复制数据集中的正面示例)

我确信还有许多其他技巧可以应用,这只是我最喜欢的短名单。