你如何处理SVM中的数据不平衡?

Lon*_*guy 6 svm

如果我在lrge训练集上训练SVM并且如果类变量是True或False,那么与训练集中的False值相比,True值会非常少,会影响训练模型/结果吗?他们应该平等吗?如果我的训练集没有平等分配的真假,我该如何处理这个问题,以便尽可能有效地完成我的训练?

Tak*_*keS 3

数据不平衡很好,因为 SVM 应该能够对与不太可能的实例相关的误分类错误分配更大的惩罚(例如,在您的情况下为“True”),而不是分配相同的错误权重,这会导致不良的分类器把一切都分配给多数人。但是,使用平衡的数据您可能会获得更好的结果。这实际上完全取决于您的数据。

您可以人为地扭曲数据以获得更平衡的数据。你为什么不检查这篇论文:http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF