sam*_*ara 6 text information-retrieval classification tf-idf
据我了解,IDF用于计算有多少文件具有该术语(仅仅是这个想法).您可以在训练集中计算IDF(以及TF),因为您事先拥有所有文档.但是,如果我事先没有测试集并且我以顺序的方式获得测试文档(比如来自网络爬虫),那么当我们在测试时如何计算文档中的单词的IDF呢? ?
小智 2
对于这种状态,如果您的数据集足够大,您可以仅使用 IDF 的训练集。在测试阶段,如果新术语在训练集中,则使用训练的 IDF;如果术语是新的,则使用训练集文档的数量来计算 IDF。出于某些目的,您可以使用平滑方法以获得更好的结果。