我需要比较存储在数据库中的文档,并得出0到1之间的相似性得分.
我需要使用的方法必须非常简单.实现n-gram的vanilla版本(可以定义要使用的克数),以及tf-idf和余弦相似度的简单实现.
有没有可以做到这一点的程序?或者我应该从头开始写这个?
python document tf-idf n-gram vsm
document ×1
n-gram ×1
python ×1
tf-idf ×1
vsm ×1