你如何处理SVM中的数据不平衡？

Question

如果我在lrge训练集上训练SVM并且如果类变量是True或False,那么与训练集中的False值相比,True值会非常少,会影响训练模型/结果吗？他们应该平等吗？如果我的训练集没有平等分配的真假,我该如何处理这个问题,以便尽可能有效地完成我的训练？

Answer 1

数据不平衡很好，因为 SVM 应该能够对与不太可能的实例相关的误分类错误分配更大的惩罚（例如，在您的情况下为“True”），而不是分配相同的错误权重，这会导致不良的分类器把一切都分配给多数人。但是，使用平衡的数据您可能会获得更好的结果。这实际上完全取决于您的数据。

您可以人为地扭曲数据以获得更平衡的数据。你为什么不检查这篇论文：http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF。