无监督学习中的训练/测试拆分是否必要/有用？

Question

在监督学习中，我有典型的训练/测试分割来学习算法，例如回归或分类。关于无监督学习，我的问题是：训练/测试拆分是否必要和有用？如果是，为什么？

Answer 1

这取决于问题、数据集的形式和用于解决特定问题的无监督算法的类别。

粗略地：- 降维技术通常通过计算重建误差来测试，因此我们可以使用 k 折交叉验证程序

但在聚类算法上，我建议进行统计测试以测试性能。还有一些耗时的技巧，即分割数据集并使用有意义的类手动标记测试集并进行交叉验证

在任何情况下，无监督算法用于监督数据，那么它总是很好的交叉验证

总体而言：- 没有必要分割训练测试集中的数据，但如果我们能做到这一点总是更好