如何提高分类机器学习模型的真阳性率？

Question

我是机器学习新手，我有一个数据集，该数据集具有高度不平衡的类（以负类为主），并且包含超过 2K 的数字特征，目标是 [0,1]。我训练了一个逻辑回归，虽然我得到了 89% 的准确率，但从混淆矩阵来看，发现模型的 True Positive 非常低。以下是我的模型的分数

Accuracy Score : 0.8965989500114129

Precision Score : 0.3333333333333333

Recall Score : 0.029545454545454545

F1 Score : 0.05427974947807933

如何提高我的真实积极率？我应该使用不同的分类模型吗？

我尝试过 PCA 并将我的数据表示为 2 个组件，它将模型准确率提高到 90%（大约），但真实阳性率再次下降

Answer 1

做这件事有很多种方法：

您可以更改模型并测试其性能是否更好
您可以修复不同的预测阈值：这里我猜您预测 0 如果回归的输出 <0.5，您可以将其更改0.5为0.25例如。它会提高您的真阳性率，但当然，代价是更多的误报。
您可以复制训练集中的每个正面示例，以便您的分类器感觉类别实际上是平衡的。
您可以更改分类器的损失，以惩罚更多的假阴性（这实际上非常接近于复制数据集中的正面示例）

我确信还有许多其他技巧可以应用，这只是我最喜欢的短名单。