twitter的热门话题算法如何决定从推文中提取哪些词?

Jas*_*ker 7 algorithm twitter nlp ranking

我看到了这个问题,主要关注"布兰妮斯皮尔斯"问题.但我有一个不同的问题.算法如何确定需要对哪些单词或短语进行排名?例如,如果我发出一条说"迈克尔杰克逊去世"的推文,它怎么知道拔出"迈克尔杰克逊"而不是"死"?

或者假设Alec Baldwin和Steven Baldwin当天都在新闻中,因此在很多推文中都提到过.怎么知道以不同的方式处理这两个名字而不仅仅是拉出"鲍德温"?

天真地做,我可以看到这个问题是NP完全的(你必须将推文中的所有潜在短语与其他人的推文中的所有潜在短语进行比较).

Jam*_*ack 2

该问题的一般解决方案是使用“术语频率,逆文档频率”(tf-idf)

这是一种统计方法,可以找到比其他单词/术语更相关的单词/术语,因为它们不经常出现。在这种情况下,与常见的英语单词“死”相比,“迈克尔·杰克逊”这个名字的频率可能非常低。

至于亚历克·鲍德温 (Alec Baldwin) 与史蒂文·鲍德温 (Steven Baldwin) - 这些将在词性标记期间被识别为单独的- 他们将被标记为单独的专有名词。