找到两个文本体的"相关性"有哪些好的方法?

Mat*_*att 7 comparison full-text-search information-retrieval string-comparison

这就是问题 - 我有几千个小文本片段,从几个单词到几个句子 - 最大的片段大约是磁盘上的2k.我希望能够比较每个,并计算相关因素,以便我可以向用户显示相关信息.

有什么好方法可以做到这一点?有没有已知的算法可以做任何好事,是否有任何GPL解决方案等?

我不需要这个实时运行,因为我可以预先计算一切.我更关心的是获得比运行时更好的结果.

我只是想在去写自己的东西之前我会问Stack Overflow社区.那里的人必须找到好的解决方案.

jjc*_*son 2

这些关于语义相关性语义相似性的文章可能会有所帮助。还有这个关于潜在语义分析的问题。

您还可以在Soundex中查找语音“听起来相似”的单词。