我正在做一些关于如何将文章聚集成"新闻报道"的新闻.
看一下之前关于这个问题的问题,我经常看到它建议简单地从一篇文章中提取一个单词的向量,如果它们在文章的某些部分(例如标题)中,则更多地加权一些单词,然后使用类似k-means算法的东西来聚类文章.
但这导致了几个问题:
有了k-means,你怎么知道k应该是多少?在动态新闻环境中,您可能会有不同数量的故事,并且您不会事先知道一组文章所代表的故事数量.
使用分层聚类算法,您如何确定将哪些聚类用作故事?您将在树的底部有一些集群,这些集群只是单个文章,您显然不想使用这些集群,并且树的根目录中包含所有文章的集群,这也是您不想要的......但是你怎么知道它们之间的哪些集群应该被用来代表故事呢?
最后,使用k-means或hierarchal算法,我读过的大多数文献似乎都假设您有一个预设的文档集合,您想要聚类,并将它们全部聚集在一起.但是,你经常会有新文章进入的情况如何.怎么了?你是否必须从头开始集中所有文章,现在还有一个?这就是为什么我想知道是否有方法可以让你在不重新聚类的情况下"添加"文章.我无法想象这是非常有效的.