nir*_*raj 13 algorithm cluster-analysis
Google新闻和Techmeme如何聚类相似的新闻?是否有任何熟知的算法用于实现这一目标?
感谢您的帮助.
提前致谢.
max*_*ori 9
基于内容对文本进行聚类的一种相当常见的方法是对单词向量使用主成分分析(n维向量,其中每个可能的单词代表一个维度,每个方向的大小,对于每个向量,是出现的数字.在该特定文章中的单词),然后只是一个简单的聚类,如K-Means.
小智 5
算法基础是凝聚聚类或类似的东西.但最重要的是有一些启发式方法.例如,向量空间肯定由单词和短语(单词n-gram)组成.在严格的时间段内限制搜索也非常重要.识别名称,权衡标题和段落标题也是关键部分.
在切线相关的说明.如果您有兴趣查找近似重复的文章,那么有许多更容易实现的方法,例如此处描述的方法
归档时间:
16 年,8 月 前
查看次数:
5136 次
最近记录:
11 年,5 月 前