相关疑难解决方法(0)

处理二进制分类中的类不平衡

这是我的问题的简要描述:

  1. 我正在进行有监督的学习任务来训练二元分类器.
  2. 我有一个具有大类不平衡分布的数据集:每个正数为8个负实例.
  3. 我使用f-measure,即特异性和灵敏度之间的调和平均值来评估分类器的性能.

我绘制了几个分类器的ROC图,并且都表现出很好的AUC,这意味着分类很好.但是,当我测试分类器并计算f-measure时,我得到一个非常低的值.我知道这个问题是由数据集的类偏度引起的,到现在为止,我发现了两个处理它的选项:

  1. 采用成本敏感通过对数据集的情况下,分配权重的方法(见本岗位)
  2. 对分类器返回的预测概率进行阈值处理,以减少误报和漏报的数量.

我选择了第一个选项,解决了我的问题(f-measure令人满意).但是,现在,我的问题是:哪种方法更可取?有什么区别?

PS:我正在使用Python和scikit-learn库.

python r classification machine-learning

17
推荐指数
1
解决办法
7835
查看次数

标签 统计

classification ×1

machine-learning ×1

python ×1

r ×1