相关疑难解决方法(0)

是否有一种算法可以告诉两个短语的语义相似性

输入:短语1,短语2

输出:语义相似度值(介于0和1之间),或这两个短语谈论同一事物的概率

algorithm nlp semantics

63
推荐指数
5
解决办法
5万
查看次数

什么尝试和真正的算法建议相关的文章在那里?

很常见的情况,我打赌.你有一个博客或新闻网站,你有很多文章或blags或你称之为的任何东西,你想在每个网站的底部建议其他似乎相关的东西.

让我们假设每个项目的元数据非常少.也就是说,没有标签,类别.视为一大块文本,包括标题和作者姓名.

你如何找到可能相关的文件?

我对实际的算法很感兴趣,而不是现成的解决方案,虽然我可以看看在ruby或python中实现的东西,或者依赖于mysql或pgsql.

编辑:目前的答案还不错,但我想看到更多.对于一两件事,可能有一些非常简单的示例代码.

text information-retrieval machine-learning document-classification

23
推荐指数
2
解决办法
4300
查看次数

根据人名匹配记录

是否有任何工具或方法可用于在两个不同数据源之间通过人名进行匹配?

系统没有其他常见信息,并且在许多情况下输入的名称也不同.

非完全匹配的示例:

小王,马丁路德=国王,马丁(不包括后缀)
欧文,J.博士=欧文,J.(不包括前缀)
奥巴马,巴拉克侯赛因=奥巴马,巴拉克(不包括中间名)
Pufnstuf,HR = Pufnstuf,Haibane Renmei (匹配缩写)
Tankengine,Thomas = Tankengine,Tom(匹配常见的昵称)
Flair,Rick"the Natureboy"= Flair,Natureboy(匹配昵称)

data-conversion pattern-matching name-matching

16
推荐指数
1
解决办法
5881
查看次数

LSA - 潜在语义分析 - 如何用PHP编写代码?

我想在PHP中实现潜在语义分析(LSA),以便找出文本的主题/标签.

以下是我认为我必须做的事情.它是否正确?如何在PHP中编写代码?如何确定要选择的单词?

我不想使用任何外部库.我已经实现了奇异值分解(SVD).

  1. 从给定文本中提取所有单词.
  2. 对单词/短语进行加权,例如使用tf-idf.如果加权太复杂,只需要考虑出现的次数.
  3. 构建矩阵:列是数据库中的一些文档(越多越好?),行都是唯一的单词,值是出现次数或权重.
  4. 做奇异值分解(SVD).
  5. 使用矩阵S(SVD)中的值进行降维(如何?).

我希望你能帮助我.非常感谢你提前!

php tagging linguistics lsa semantics

9
推荐指数
1
解决办法
6893
查看次数