你可以在scikit learn中的分类器中修复假阴性率吗？

Question

我在scikit中使用随机森林分类法学习两个类的不平衡数据集.我更担心假阴性而不是假阳性.是否有可能修复假阴性率(比如说,1%)并让scikit以某种方式优化假阳性率？

如果这个分类器不支持它,那么还有另一个分类器吗？

Answer 1

我相信使用参数可以部分解决sklearn 中类不平衡的问题class_weight.

此参数是字典,其中每个类都分配了统一权重,或者是一个告诉sklearn如何构建此字典的字符串.例如,将此参数设置为"auto",将按照其频率的倒数的比例对每个类进行加权.

通过对较少量的较少的类进行加权,您可以得到"更好"的结果.

像SVM或逻辑回归这样的分类器也提供此class_weight参数.

这个 Stack Overflow回答给出了一些关于如何处理类不平衡的其他想法,比如采样和过采样.