无监督学习中的训练/测试拆分是否必要/有用?

Chr*_*h S 10 machine-learning unsupervised-learning

在监督学习中,我有典型的训练/测试分割来学习算法,例如回归或分类。关于无监督学习,我的问题是:训练/测试拆分是否必要和有用?如果是,为什么?

小智 5

这取决于问题、数据集的形式和用于解决特定问题的无监督算法的类别。

粗略地:- 降维技术通常通过计算重建误差来测试,因此我们可以使用 k 折交叉验证程序

但在聚类算法上,我建议进行统计测试以测试性能。还有一些耗时的技巧,即分割数据集并使用有意义的类手动标记测试集并进行交叉验证

在任何情况下,无监督算法用于监督数据,那么它总是很好的交叉验证

总体而言:- 没有必要分割训练测试集中的数据,但如果我们能做到这一点总是更好

这是解释交叉验证如何成为无监督学习的好工具的文章 http://udini.proquest.com/view/cross-validation-for-unsupervised-pqid:1904931481/,全文可在此处获取http://udini.proquest.com/view/cross-validation-for-unsupervised-pqid:1904931481/ /arxiv.org/pdf/0909.3052.pdf

https:///www.researchgate.net/post/Which_are_the_methods_to_validate_an_unsupervised_machine_learning_algorithm