测试时计算IDF(如在TF-IDF中)？

Question

据我了解,IDF用于计算有多少文件具有该术语(仅仅是这个想法).您可以在训练集中计算IDF(以及TF),因为您事先拥有所有文档.但是,如果我事先没有测试集并且我以顺序的方式获得测试文档(比如来自网络爬虫),那么当我们在测试时如何计算文档中的单词的IDF呢？？

Answer 1

对于这种状态，如果您的数据集足够大，您可以仅使用 IDF 的训练集。在测试阶段，如果新术语在训练集中，则使用训练的 IDF；如果术语是新的，则使用训练集文档的数量来计算 IDF。出于某些目的，您可以使用平滑方法以获得更好的结果。