小编Ema*_*rge的帖子

计算从4个mysql表中检索的所有可能文本对的余弦相似度

我有4个带有架构的表(app,text_id,title,text).现在我想计算所有可能的文本对(标题和文本连接)之间的余弦相似度,并最终将它们存储在带有字段的csv文件中(app1,app2,text_id1,text1,text_id2,text2,cosine_similarity).

由于有很多可能的组合,它应该运行非常有效.这里最常见的方法是什么?我很感激任何指针.

编辑:虽然提供的参考可能会触及我的问题,但我仍然无法弄清楚如何处理这个问题.有人可以提供有关完成此任务的策略的更多详细信息吗?在计算的余弦相似度旁边,我还需要相应的文本对作为输出.

python numpy text-mining cosine-similarity scikit-learn

1
推荐指数
1
解决办法
2819
查看次数