如何注意到不寻常的新闻活动

ʞɔı*_*ɔıu 5 language-agnostic algorithm statistics

假设您能够跟踪不同实体的新闻提及,例如"Steve Jobs"和"Steve Ballmer".

有什么方法可以判断每个实体在给定时间段内的提及量是否与其正常的出现频率相比是不寻常的?

我想,对于像史蒂夫乔布斯这样更受欢迎的人来说,增加50%可能是不寻常的(增加1000到1500),而对于一个相对不知名的CEO来说,在某一天可能会增加1000%(增加) 2到200).如果你没有办法扩展你的不寻常指数可能会被闻所未闻的15分钟的名声所支配.

更新:为了更清楚,假设您已经能够获得连续的新闻流并识别每个新闻项中的实体并将所有这些存储在关系数据存储中.

Mik*_* M. 0

远远超过简化的程度——存储人员姓名以及过去 24 小时内创建的涉及其姓名的文章数量。与历史数据进行比较。

现实生活 - 如果您尝试动态挑选人们的名字,您会如何做?搜索文章时如何获取名字?一旦你有了一个新名字,你会搜索他的所有文章吗?你如何区分苹果公司的史蒂夫·乔布斯和产生大量文章的新星跑卫史蒂夫·乔布斯?

如果您追求简单性,请创建一个包含您实际插入的 50 个人名的表。每天午夜,让您的程序运行过去 24 小时的快速 Google 查询并存储结果数量。尽管其中存在很多我们没有考虑到的变量。