LIBSVM 过拟合

use*_*509 5 machine-learning svm libsvm cross-validation

在进行 10 倍交叉验证并找到 gamma 和 C(RBF 核)的最佳参数值后,我用 15451 个样本训练了两个 svm (LIBSVM)。在一个 svm 中,我只使用了 1 个特征,在第二个中,我又使用了一个特征(以查看这一附加特征是否改善了预测)。CV 后,我的准确度为 75%(具有一项特征的 SVM)和 77%(具有附加一项特征的 SVM)。在对另外 15451 个实例进行测试后,我的准确率分别为 70% 和 72%。

我知道这称为过度拟合,但这在这里很重要吗,因为只有 5% 的差异。

我可以做什么来避免过度拟合?

仅使用一两个特征和相对较大的训练集是否更好?

希望你能帮助我。

Tex*_*Tex 4

这里似乎对过度拟合有些困惑。

简而言之,“过度拟合”并不意味着拟合训练集的准确性(不成比例地)高于拟合通用测试集。相反,这是结果而不是原因。

“过度拟合”意味着您的模型不惜一切代价过于努力地拟合训练集,并且在获取所有信号后,它开始拟合噪声。作为一个(非常标准的)示例,想象一下生成来自直线的数据点,但然后添加一点高斯噪声:这些点将“大致”在一条线上,但不完全在一条线上。当您试图找到一条穿过每个点的曲线(例如 27 级多项式)而您真正需要的只是一条直线时,您就过度拟合了。

直观地检查这一点的一种方法是绘制学习曲线。

该网页看起来信息丰富,因此我将从这里开始了解更多信息:http ://www.astroml.org/sklearn_tutorial/practical.html