Sil*_*gon 8 nlp artificial-intelligence classification machine-learning bayesian
我手上有一个分类问题,我想用机器学习算法解决这个问题(可能是贝叶斯或马尔可夫,问题与要使用的分类器无关).鉴于一些培训实例,我正在寻找一种方法来衡量已实施的分类器的性能,同时考虑数据过度拟合问题.
那就是:给定N [1..100]训练样本,如果我在每个样本上运行训练算法,并使用这个相同的样本来测量适应度,它可能会陷入数据过度拟合问题 - 分类器会知道训练实例的确切答案,没有太多的预测能力,使健身结果无用.
一个明显的解决方案是将手工标记的样品分成训练和测试样品; 我想学习选择具有统计学意义的训练样本的方法.
白皮书,书籍指针和PDF非常感谢!