TF-IDF简单使用 - NLTK/Scikit Learn

tab*_*has 6 python nlp nltk tf-idf scikit-learn

好的,所以我有点困惑.然而,这应该是一个简单明了的问题.

在针对整个语料库计算文档的TF-IDF矩阵之后,我得到了与此非常类似的结果:

array([[ 0.85...,  0.  ...,  0.52...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.55...,  0.83...,  0.  ...],
       [ 0.63...,  0.  ...,  0.77...]])
Run Code Online (Sandbox Code Playgroud)

如何使用此结果获取与搜索查询最相似的文档?基本上我正在尝试为维基百科重新创建一个搜索栏.根据搜索查询,我想从维基百科返回最相关的文章.在这种情况下,有6篇文章(行),搜索查询包含3个单词(列).

我是否将所有结果添加到列中或添加所有行?更重要的值是最相关的还是最相关的最低值?

ver*_*sit 5

你熟悉余弦相似度吗?对于每篇文章(向量A)计算其与查询(向量B)的相似性.然后按降序排列并选择最高结果.如果您愿意重构,那么gensim库非常棒.