像GOOGLE新闻一样将类似的新闻内容分组在一起

Question

由于在各种新闻网站上发布了大量新故事/类似新闻内容,我无法轻松管理RSS源.对于诸如世界新闻和商业新闻等主题,许多故事都是多余的,给读者增加了负担,使他们能够理清他们已经阅读过的故事.为了解决泛洪和冗余这两个问题,我需要开发一个代码来减少要读取的项目数量,并使用重叠信息来划分有趣的主题.

如果我能够像GOOGLE NEWS/StackOverflow一样将类似的新闻内容组合在一起并将其呈现给用户,那将会更容易.

Answer 1

这绝对是一个不那么容易解决的问题,可以通过以下方式解决:

首先,我将不同的新闻来源分组到一些相对广泛的类别.您可以轻松确定Tech新闻来源不会在经济类别下发布新闻.(或者,那就是问题.)

大多数情况下新闻标题都不会被触及,它最多只保留原始形式.因此,分类,标题和发布日期是将新闻组合成一个的良好起点.

如果您发现上述方法存在问题,则需要进行一些微调.

也许你需要阅读整篇文章并逐字逐句地比较两篇(数千篇)文章.

如果新闻的原始文本相似(您可以定义阈值),您可以再次比较其他因素(如上所述).

一些新闻来源在RSS源中提供了良好的标记,也许你也可以使用它但不依赖它.

请记住,一开始(大约1年)你需要进行大量的微调,然后你会没事的.

Answer 2

我在这里没有看到任何问题，但我会首先开发某种指纹算法，使用文章中的单词、姓名、标题、日期等。然后我会检查指纹的相似性以找到相同的文章，也许通过某种 MapReduce 作业轻松地将工作分散到集群中的不同服务器。

如果您想要一些灵感，请查看 Google Living Stories 的源代码： http://code.google.com/p/living-stories/