新闻聚类

Question

Google新闻和Techmeme如何聚类相似的新闻？是否有任何熟知的算法用于实现这一目标？

感谢您的帮助.

提前致谢.

Answer 1

基于内容对文本进行聚类的一种相当常见的方法是对单词向量使用主成分分析(n维向量,其中每个可能的单词代表一个维度,每个方向的大小,对于每个向量,是出现的数字.在该特定文章中的单词),然后只是一个简单的聚类,如K-Means.

谢谢安迪.感谢您的帮助.在从你的答案中研究这个主题时,我发现了一些有用的链接.我在这里发表评论作为评论,以便任何对此主题感兴趣的人都可以有一个起点.分层凝聚聚类http://nlp.stanford.edu/IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html聚类算法教程http://home.dei.polimi.it/matteucc/Clustering /tutorial_html/kmeans.html信息检索简介http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html (9认同)

Answer 2

算法基础是凝聚聚类或类似的东西.但最重要的是有一些启发式方法.例如,向量空间肯定由单词和短语(单词n-gram)组成.在严格的时间段内限制搜索也非常重要.识别名称,权衡标题和段落标题也是关键部分.

在切线相关的说明.如果您有兴趣查找近似重复的文章,那么有许多更容易实现的方法,例如此处描述的方法