将文档添加到已评分的 TF-IDF 集合中?

eri*_*kcw 1 nlp machine-learning similarity tf-idf

我有大量已经计算了 TF-IDF 的文档。我正准备向集合中添加更多文档,我想知道是否有一种方法可以在不重新处理整个数据库的情况下将 TF-IDF 分数添加到新文档中?

eph*_*hes 5

基本上有两种选择:

  1. 仅在需要时计算 tf-idf 分数。添加新文档现在很简单。您所要做的就是更新所有文档的数量、出现标记的文档数量并存储新文档的标记出现向量。

  2. 定期重新计算您的 tf-idf 向量,可能在添加 100K 文档或类似内容之后。在两者之间,只需使用旧值(所有文档的数量,出现标记的文档数量)。

如果您的集合非常大,您可能需要采用第二种方法,因为新文档无论如何都不会改变单词的全局分布。也就是说,最好测试这两种方法并选择最适合您的问题的方法。