我需要比较存储在数据库中的文档,并得出0到1之间的相似性得分.
我需要使用的方法必须非常简单.实现n-gram的vanilla版本(可以定义要使用的克数),以及tf-idf和余弦相似度的简单实现.
有没有可以做到这一点的程序?或者我应该从头开始写这个?
python document tf-idf n-gram vsm
python中有哪些标准的tf-idf实现/ api?我在nltk遇到过那个.我想知道提供此功能的其他库.
python information-retrieval nltk tf-idf
python ×2
tf-idf ×2
document ×1
information-retrieval ×1
n-gram ×1
nltk ×1
vsm ×1