测试精度大于训练精度怎么办?

MUH*_*eer 4 regression machine-learning random-forest

我正在使用随机森林。我的测试准确率为 70%,另一方面,火车准确率为 34%?该怎么办 ?我怎么解决这个问题。

jav*_*dba 12

Test准确率不应高于train因为模型是为后者优化的。这种行为可能发生的方式:

  • 您没有使用相同的源数据集进行测试。您应该进行适当的训练/测试拆分,其中它们都具有相同的基础分布。很可能您为test

  • 应用了不合理的高度regularization。即便如此,为了观察到的行为发生,仍然需要一些“测试数据分布与火车的分布不同”的元素。

  • 我同意@javadba 的观点,并想补充一点:另一个原因可能是数据污染,其中训练集的记录也存在于测试集中。 (3认同)