如果我在lrge训练集上训练SVM并且如果类变量是True或False,那么与训练集中的False值相比,True值会非常少,会影响训练模型/结果吗?他们应该平等吗?如果我的训练集没有平等分配的真假,我该如何处理这个问题,以便尽可能有效地完成我的训练?
数据不平衡很好,因为 SVM 应该能够对与不太可能的实例相关的误分类错误分配更大的惩罚(例如,在您的情况下为“True”),而不是分配相同的错误权重,这会导致不良的分类器把一切都分配给多数人。但是,使用平衡的数据您可能会获得更好的结果。这实际上完全取决于您的数据。
您可以人为地扭曲数据以获得更平衡的数据。你为什么不检查这篇论文:http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF。
| 归档时间: |
|
| 查看次数: |
6521 次 |
| 最近记录: |