Jag*_*ira
7
tagging
cluster-analysis
我正在计划一个应用程序,它将根据主题制作短消息/推文集群.主题数量将受限于体育[NBA,NFL,板球,足球],娱乐[电影,音乐]等......
我可以想到两种方法
- 要求用户标记Stackoverflow之类的问题.用户可以从预定义的标签列表中选择标签.然后在服务器端,我将基于标签对它们进行聚类.优点: - 简单的设计.代码复杂度降低.缺点: - 用户的选择将受到限制.集群不会是动态的.如果发生新事件,预定义标签将错过它.
- 记下消息,删除[在词典中预定义]的停用词,对词干消息应用一些聚类算法来制作群集,并根据其流行度显示群集.群集将一直显示,直到它仍然流行[许多消息/分钟].新消息将被删除并分配给相应的群集.优点: - 基于事件/事故的流行度的动态聚类.缺点: - 复杂性增加.需要更多服务器资源.
我想知道是否有任何其他方法来解决这个问题.或者有没有办法改进上述方法?
还提出了一些很好的聚类算法.我认为"K-Nearest Clustering"算法适用于这种情况.