二进制分类:如果我最关心的类只是数据的一小部分怎么办?

use*_*372 2 machine-learning data-mining

我正在研究二进制分类问题.说A类和B类.但问题是A和B的类先验分布类似于90%和10%.因此我尝试过的大多数分类算法都倾向于对A类的大多数情况进行分类,尽管0/1的​​准确度很高,但B级的类精度和召回是可怕的.我怎么能改变这个?

lej*_*lot 5

有两种基本方法:

  • 对较小的类进行过采样(重复矢量使得比例更加相等,您还可以对这些数据应用一些小噪声以获得更多"有价值的"数据)
  • 使用一些类加权方案,您的模型支持该方案

特别是,看看支持向量机的确切问题

还有一件事 - 构建一些评估措施来处理这种不成比例,在单方面MCC(Mathews Correlation Coefficient)可以用来评估非比例数据的模型质量.