区分过度拟合与良好预测

Zac*_*ach 33 python regression numpy machine-learning scikit-learn

这些是关于如何计算和减少机器学习过度拟合的问题.我认为许多新的机器学习会有同样的问题,所以我试着清楚我的例子和问题,希望这里的答案可以帮助别人.

我有一个非常小的文本样本,我正在尝试预测与它们相关的值.我已经使用sklearn来计算tf-idf,并将它们插入到回归模型中进行预测.这给了我26个样本,6323个功能 - 不是很多..我知道:

>> count_vectorizer = CountVectorizer(min_n=1, max_n=1)
>> term_freq = count_vectorizer.fit_transform(texts)
>> transformer = TfidfTransformer()
>> X = transformer.fit_transform(term_freq) 
>> print X.shape

(26, 6323)
Run Code Online (Sandbox Code Playgroud)

将这些6323个特征(X)和相关分数(y)的26个样本插入到LinearRegression模型中,可以得到很好的预测.这些是使用留一法交叉验证获得的,来自cross_validation.LeaveOneOut(X.shape[0], indices=True):

using ngrams (n=1):
     human  machine  points-off  %error
      8.67    8.27    0.40       1.98
      8.00    7.33    0.67       3.34
      ...     ...     ...        ...
      5.00    6.61    1.61       8.06
      9.00    7.50    1.50       7.50
mean: 7.59    7.64    1.29       6.47
std : 1.94    0.56    1.38       6.91
Run Code Online (Sandbox Code Playgroud)

非常好!使用ngrams(n = 300)而不是unigrams(n = 1),会出现类似的结果,这显然是不对的.在任何文本中都不会出现300个单词,因此预测应该会失败,但它不会:

using ngrams (n=300):
      human  machine  points-off  %error
       8.67    7.55    1.12       5.60
       8.00    7.57    0.43       2.13
       ...     ...     ...        ...
mean:  7.59    7.59    1.52       7.59
std :  1.94    0.08    1.32       6.61
Run Code Online (Sandbox Code Playgroud)

问题1:这可能意味着预测模型过度拟合数据.我只知道这个,因为我为ngrams(n = 300)选择了一个极值,我知道它不会产生好的结果.但如果我没有这方面的知识,你通常会怎么说模型过度拟合?换句话说,如果使用合理的测量(n = 1),你怎么知道好的预测是过度拟合的结果而不是模型运作良好?

问题2:防止过度拟合(在这种情况下)确保预测结果良好的最佳方法是什么?

问题3:如果使用LeaveOneOut交叉验证,模型如何可能过度拟合并获得良好结果?过度拟合意味着预测的准确性将受到影响 - 那么为什么它不会因为遗漏的文本而受到影响呢?我能想到的唯一原因是:在主要为0的tf-idf稀疏矩阵中,文本之间存在很强的重叠,因为很多项都是0 - 然后回归认为文本高度相关.

即使您不了解所有问题,也请回答任何问题.谢谢!

Fre*_*Foo 34

你通常会怎么说模型过度拟合?

一个有用的经验法则是,当您的模型在其自己的训练集上的性能远远优于其保持的验证集或交叉验证设置时,您可能会过度拟合.但这并不是全部.

我链接的博客条目描述了测试过度拟合的过程:绘图训练集和验证集错误作为训练集大小的函数.如果它们在图的右端显示出稳定的间隙,那么你可能会过度拟合.

什么是防止过度拟合(在这种情况下)确保预测结果良好的最佳方法?

使用保持不变的测试集.完成模型选择(超参数调整)后,只对此集进行评估; 不要训练它,不要在(交叉)验证中使用它.您在测试集上获得的分数是模型的最终评估.这应该表明您是否意外地过度使用了验证集.

[机器学习会议有时设置类似于竞争,其中,直到测试集不给研究人员,他们已经完成了他们的最终模型组织者.同时,他们可以随意使用训练集,例如通过使用交叉验证测试模型.Kaggle做了类似的事.]

如果使用LeaveOneOut交叉验证,模型如何可能过度拟合并获得良好结果?

因为您可以在此交叉验证设置中根据需要调整模型,直到它在CV中几乎完美地执行.

作为一个极端的例子,假设您已经实现了一个基本上是随机数生成器的估计器.你可以继续尝试随机种子,直到你遇到一个在交叉验证中产生非常低误差的"模型",但是你没有找到正确的模型.这意味着你已经过度交叉验证了.

另见这个有趣的战争.