用于分组新闻文章的增量聚类算法?

Pet*_*ter 14 cluster-analysis

我正在做一些关于如何将文章聚集成"新闻报道"的新闻.

看一下之前关于这个问题的问题,我经常看到它建议简单地从一篇文章中提取一个单词的向量,如果它们在文章的某些部分(例如标题)中,则更多地加权一些单词,然后使用类似k-means算法的东西来聚类文章.

但这导致了几个问题:

  • 有了k-means,你怎么知道k应该是多少?在动态新闻环境中,您可能会有不同数量的故事,并且您不会事先知道一组文章所代表的故事数量.

  • 使用分层聚类算法,您如何确定将哪些聚类用作故事?您将在树的底部有一些集群,这些集群只是单个文章,您显然不想使用这些集群,并且树的根目录中包含所有文章的集群,这也是您不想要的......但是你怎么知道它们之间的哪些集群应该被用来代表故事呢?

  • 最后,使用k-means或hierarchal算法,我读过的大多数文献似乎都假设您有一个预设的文档集合,您想要聚类,并将它们全部聚集在一起.但是,你经常会有新文章进入的情况如何.怎么了?你是否必须从头开始集中所有文章,现在还有一个?这就是为什么我想知道是否有方法可以让你在不重新聚类的情况下"添加"文章.我无法想象这是非常有效的.

Eri*_*rce 3

我会搜索自适应 K 均值聚类算法。有一个很好的研究部分专门针对您所描述的问题。这是一篇这样的论文(pdf)