测量文档集之间的相似性

jod*_*eci 7 lucene solr morelikethis

为了便于说明,我们假设这是一个论坛服务.我需要计算每个用户帖子之间的"相似度",以便结果如下:

among posts by user A, similarity 60%
among posts by user B, similarity 20%
...
Run Code Online (Sandbox Code Playgroud)

我正在处理多字节字符串,所以我想我在这里遇到了搜索引擎.我们已经使用了Solr,已经有更多像这样实现了,但我不太确定如何构造查询.任何帮助赞赏!

D_K*_*D_K 0

奇怪的问题有两个方面: 1. 为什么一定要处理SOLR?2. 相似性的种类取决于目标问题。你的问题对我来说听起来太笼统了。语义相似性领域正在进行研究。有编辑距离算法,这可能不是您想要的。

因此,更准确地定义您的问题,您就会得到更好的答案。