找到两个文本体的"相关性"有哪些好的方法？

Question

这就是问题 - 我有几千个小文本片段,从几个单词到几个句子 - 最大的片段大约是磁盘上的2k.我希望能够比较每个,并计算相关因素,以便我可以向用户显示相关信息.

有什么好方法可以做到这一点？有没有已知的算法可以做任何好事,是否有任何GPL解决方案等？

我不需要这个实时运行,因为我可以预先计算一切.我更关心的是获得比运行时更好的结果.

我只是想在去写自己的东西之前我会问Stack Overflow社区.那里的人必须找到好的解决方案.

Answer 1

您还可以在Soundex中查找语音“听起来相似”的单词。