很常见的情况,我打赌.你有一个博客或新闻网站,你有很多文章或blags或你称之为的任何东西,你想在每个网站的底部建议其他似乎相关的东西.
让我们假设每个项目的元数据非常少.也就是说,没有标签,类别.视为一大块文本,包括标题和作者姓名.
你如何找到可能相关的文件?
我对实际的算法很感兴趣,而不是现成的解决方案,虽然我可以看看在ruby或python中实现的东西,或者依赖于mysql或pgsql.
编辑:目前的答案还不错,但我想看到更多.对于一两件事,可能有一些非常简单的示例代码.
text information-retrieval machine-learning document-classification
我正在做project.i需要任何开源工具或技术来找到句子之间的语义相似性,我把输入作为两个句子输出作为分数(即语义相似性).任何人都知道这个信息.我希望我会得到答复很快.谢谢大家.