我在python中用sklearn的逻辑回归解决了一个分类问题.
我的问题是一般/通用问题.我有一个包含两个类/结果(正/负或1/0)的数据集,但该集非常不平衡.有约5%的阳性和~95%的阴性.
我知道有很多方法可以解决像这样的不平衡问题,但是没有找到如何使用sklearn软件包正确实现的良好解释.
到目前为止,我所做的是通过选择具有正结果和相同数量的随机选择的否定条目的条目来建立平衡训练集.然后我可以将模型训练到这个集合,但我仍然坚持如何修改模型,然后处理原始的不平衡人口/集合.
这样做的具体步骤是什么?我已经倾倒了sklearn文档和示例,并没有找到一个很好的解释.