用于主题检测的推文之间的表示和良好的相似性度量

Osc*_*ros 6 twitter information-retrieval cluster-analysis machine-learning topic-modeling

我打算在Twitter上编写一个主题检测工具.我一直在考虑两个推文之间的良好相似性度量(距离),以及如何表示它们,计入:

  • #hashtags(我认为在Twitter上检测到的话题时,井号标签是非常重要的)
  • 回复(如果有人回复推文,那些推文可能会谈论相同的主题,虽然有两个人可以开始谈论三星银河并最终谈论iphone越狱等)

我正在考虑实施到目前为止所做的工作并做一些实验.我将实现经典模型(类似TF*IDF并使用欧几里德距离,角度余弦等),以及具有一些相似性度量(汉明,Jaccard等)的布尔模型.

有关如何使某些现有模型适应Twitter或关于如何创建新模型的一些想法的任何想法?

Pul*_*yal 5

Twitter上的相似度量标准讨论了有关不同相似性度量的一些细节,您可以将这些度量用于将来自twitter的数据聚集在一起.我们根据用户连接,用户提及,地理位置,推文之间的内容相似性,用户描述之间的内容相似性以及常见的#hashtags,对Twitter上的用户进行了一些研究.

为了在twitter上查找常见主题,在讨论主题的用户之间找到联系确实有帮助,我们发现用户组倾向于讨论共同主题.这篇文章的后半部分有一些细节.