Gre*_*ind 7 algorithm statistics nlp tf-idf
TF-IDF(术语频率 - 逆文档频率)是信息检索的主要内容.虽然它不是一个合适的模型,但当新术语被引入语料库时似乎会崩溃.当查询或新文档有新术语时,人们如何处理它,特别是如果它们是高频率的话.在传统的余弦匹配下,这些对总比赛没有影响.
呃,不,不会崩溃。
假设我有两个文件,A“黄鼠狼山羊”和B“奶酪地鼠”。如果我们实际上将它们表示为向量,它们可能看起来像:
A [1,1,0,0]
B [0,0,1,1]
如果我们已经在索引文件中分配了这些向量,是的,当需要添加新术语时我们就会遇到问题。但它的技巧是,那个向量永远不存在。关键是倒排索引。
至于不影响余弦匹配的新术语,这可能是正确的,具体取决于您的意思。如果我使用查询“marmoset kungfu”搜索我的 (A,B) 语料库,则语料库中既不存在狨猴也不存在 kungfu。因此,代表我的查询的向量将与集合中的所有文档正交,并获得不好的余弦相似度得分。但考虑到这些条款都不匹配,这似乎很合理。