许多网站都提供了一些统计数据,例如"过去24小时内最热门的话题".例如,Topix.com在其"新闻趋势"部分中显示了这一点.在那里,您可以看到增长最多的主题.
我也想为一个主题计算这样一个"嗡嗡声".我怎么能这样做?该算法应该对总是少热的主题进行加权.通常(几乎)没有人提到的主题应该是最热门的主题.
Google提供"热门趋势",topix.com显示"热门话题",fav.or.it显示"关键字趋势" - 所有这些服务都有一个共同点:它们只显示即将出现的异常热门趋势.
像"布兰妮斯皮尔斯","天气"或"帕丽斯·希尔顿"这样的词语不会出现在这些列表中,因为它们总是热门而且频繁.这篇文章称之为"布兰妮斯皮尔斯问题".
我的问题:如何编写算法代码或使用现有算法来解决此问题?如果列表中包含在过去24小时内搜索到的关键字,则该算法应显示10个(例如)最热门的关键字.
我知道,在上面的文章中,提到了某种算法.我试图用PHP编写它,但我认为它不会起作用.它只是找到了大多数,不是吗?
我希望你能帮助我(编码例子会很棒).
我有一个用例要求,我想设计一个hashtag排名系统.应该选择10个最流行的#标签.我的想法是这样的:
[hashtag,rateofhitsperminute,rateofhisper5minutes]
然后我将查询,找出10个最受欢迎的#hashtags,其每分钟的速率最高.
我的问题是,我可以使用哪种数据库来提供像'rateofhitsperminute'这样的统计数据?
计算这样一个细节和存储在db中的好方法是什么?有些DB提供这些功能吗?