测量分类算法的性能

Question

我手上有一个分类问题,我想用机器学习算法解决这个问题(可能是贝叶斯或马尔可夫,问题与要使用的分类器无关).鉴于一些培训实例,我正在寻找一种方法来衡量已实施的分类器的性能,同时考虑数据过度拟合问题.

那就是:给定N [1..100]训练样本,如果我在每个样本上运行训练算法,并使用这个相同的样本来测量适应度,它可能会陷入数据过度拟合问题 - 分类器会知道训练实例的确切答案,没有太多的预测能力,使健身结果无用.

一个明显的解决方案是将手工标记的样品分成训练和测试样品; 我想学习选择具有统计学意义的训练样本的方法.

白皮书,书籍指针和PDF非常感谢!

Answer 1

您可以使用10倍交叉验证.我相信这是分类算法性能评估的标准方法.

基本思想是将学习样本分成10个子集.然后使用一个子集用于测试数据,其他子集用于列车数据.对每个子集重复此操作,并计算最终的平均性能.

http://en.wikipedia.org/wiki/Root-mean-square_error_of_cross-validation#K-fold_cross-validation(直接链接到你链接的wiki文章中的k-fold交叉验证) (3认同)