新闻项目的相似度(主题)算法

Ank*_*kur 3 similarity nearest-neighbor collective-intelligence

我想确定两个新闻项目内容的相似性,类似于谷歌新闻,但在某种意义上我想要确定基本主题是什么,然后确定哪些主题相关.

因此,如果有一篇关于萨达姆侯赛因的文章,那么这个算法可能会推荐一些关于唐纳德拉姆斯菲尔德在伊拉克的商业交易.

如果你可以抛出像k-最近邻居这样的关键词,以及关于它们为什么起作用的一些解释(如果可以的话),我会做其余的研究并调整算法.只是寻找一个开始的地方,因为我知道有人在那里必须尝试过类似的东西.

pax*_*blo 5

初步想法:

  • 抛弃干扰的话(而且,你,是,有些,...).
  • 统计所有其他单词并按数量排序.
  • 对于两篇文章中的每个单词,根据数量的总和(或产品或其他公式)添加分数.
  • 分数代表相似性.

似乎主要是关于唐纳德拉姆斯菲尔德的文章会有这两个词,这就是为什么我在文章中对它们进行加权.

然而,可能有一篇文章曾多次提到沃伦·巴菲特与比尔·盖茨,还有一次提到比尔盖茨和微软.相关性很小.

根据您的评论:

因此,如果有一篇关于萨达姆侯赛因的文章,那么这个算法可能会推荐一些关于唐纳德拉姆斯菲尔德在伊拉克的商业交易.

除非萨达姆的文章也提到伊拉克(或唐纳德),否则情况并非如此.

这就是我开始的地方,我已经可以看到理论上的潜在漏洞了(关于比尔盖茨的一篇文章会与比尔克林顿的文章密切配合,如果他们的名字被提到很多).这可能是所有其他词语(微软为一个比尔,希拉里为另一个)照顾.

在尝试引入单词邻近功能之前,我可能会给它一个测试运行,因为这将使它非常复杂(可能不必要).

另一个可能的改进是维持"硬"关联(比如总是将阿富汗这个词加入其中的奥萨马·本·拉登的文章中).但同样,由于关于奥萨马的文章几乎肯定会提到阿富汗,因此需要额外的维护以获得可能值得怀疑的价值.