输入:短语1,短语2
输出:语义相似度值(介于0和1之间),或这两个短语谈论同一事物的概率
很常见的情况,我打赌.你有一个博客或新闻网站,你有很多文章或blags或你称之为的任何东西,你想在每个网站的底部建议其他似乎相关的东西.
让我们假设每个项目的元数据非常少.也就是说,没有标签,类别.视为一大块文本,包括标题和作者姓名.
你如何找到可能相关的文件?
我对实际的算法很感兴趣,而不是现成的解决方案,虽然我可以看看在ruby或python中实现的东西,或者依赖于mysql或pgsql.
编辑:目前的答案还不错,但我想看到更多.对于一两件事,可能有一些非常简单的示例代码.
text information-retrieval machine-learning document-classification
是否有任何工具或方法可用于在两个不同数据源之间通过人名进行匹配?
系统没有其他常见信息,并且在许多情况下输入的名称也不同.
非完全匹配的示例:
小王,马丁路德=国王,马丁(不包括后缀)
欧文,J.博士=欧文,J.(不包括前缀)
奥巴马,巴拉克侯赛因=奥巴马,巴拉克(不包括中间名)
Pufnstuf,HR = Pufnstuf,Haibane Renmei (匹配缩写)
Tankengine,Thomas = Tankengine,Tom(匹配常见的昵称)
Flair,Rick"the Natureboy"= Flair,Natureboy(匹配昵称)
我想在PHP中实现潜在语义分析(LSA),以便找出文本的主题/标签.
以下是我认为我必须做的事情.它是否正确?如何在PHP中编写代码?如何确定要选择的单词?
我不想使用任何外部库.我已经实现了奇异值分解(SVD).
我希望你能帮助我.非常感谢你提前!