Weka中的交叉验证

Question

我一直在想,我读到的交叉验证是这样执行的:

在k倍交叉验证中,原始样本被随机分成k个子样本.在k个子样本中,保留单个子样本作为用于测试模型的验证数据,并且剩余的k-1个子样本用作训练数据.然后将交叉验证过程重复k次(折叠),其中每个k个子样本仅使用一次作为验证数据.然后可以对折叠的k结果进行平均(或以其他方式组合)以产生单个估计

所以建立了k个模型,最后一个是平均值.在Weka指南中写道,每个模型总是使用所有数据集构建.那么Weka中的交叉验证如何工作呢？是否根据所有数据构建模型,"交叉验证"意味着创建了k折叠,然后对其进行评估,最终输出结果只是折叠的平均结果？

Answer 1

所以,再次出现这种情况:您有100个标记数据

使用训练集

使用10倍CV

如果这回答了你的问题,请告诉我.

@ Lazza87,你的链接已经死了,请你更新一下吗？谢谢 (4认同)
因此,对于社区,我很抱歉,我不知道Weka为您提供相同的模型,无论您选择训练集还是10倍CV.我对我的答案和评论进行了必要的更正,以便没有人得到我之前关于Weka的误解,尽管这是ML社区的常规做法,可以报告最佳模型或10倍CV的平均模型.我知道Weka提供了平均模型,但我完全错了.谢谢@ Lazza87. (3认同)

Answer 2

我会在评论中回答,但我的声誉仍然不允许我:

除了Rushdi接受的答案之外,我想强调的是,在进行性能测量并进行平均后,为交叉验证折叠集创建的模型都被丢弃.

无论您的测试选项如何,生成的模型始终基于完整的训练集.由于MTA要求更新引用的链接,这里是:http://list.waikato.ac.nz/pipermail/wekalist/2009-December/046633.html.这是WEKA维护者之一的答案,指出了我写的内容.

Answer 3

我想我明白了.拿(例如)weka.classifiers.rules.OneR -x 10 -d outmodel.xxx.这有两件事:

它基于完整数据集创建模型.这是写入的模型outmodel.xxx.此模型不用作交叉验证的一部分.
然后运行交叉验证.交叉验证涉及创建(在这种情况下)10个新模型,其中对数据段进行了训练和测试,如上所述.关键是交叉验证中使用的模型是临时的,仅用于生成统计信息.它们不等同于或用于提供给用户的模型.