tab*_*has 6 python nlp nltk tf-idf scikit-learn
好的,所以我有点困惑.然而,这应该是一个简单明了的问题.
在针对整个语料库计算文档的TF-IDF矩阵之后,我得到了与此非常类似的结果:
array([[ 0.85..., 0. ..., 0.52...],
[ 1. ..., 0. ..., 0. ...],
[ 1. ..., 0. ..., 0. ...],
[ 1. ..., 0. ..., 0. ...],
[ 0.55..., 0.83..., 0. ...],
[ 0.63..., 0. ..., 0.77...]])
Run Code Online (Sandbox Code Playgroud)
如何使用此结果获取与搜索查询最相似的文档?基本上我正在尝试为维基百科重新创建一个搜索栏.根据搜索查询,我想从维基百科返回最相关的文章.在这种情况下,有6篇文章(行),搜索查询包含3个单词(列).
我是否将所有结果添加到列中或添加所有行?更重要的值是最相关的还是最相关的最低值?
归档时间: |
|
查看次数: |
4156 次 |
最近记录: |