许多网站都提供了一些统计数据,例如"过去24小时内最热门的话题".例如,Topix.com在其"新闻趋势"部分中显示了这一点.在那里,您可以看到增长最多的主题.
我也想为一个主题计算这样一个"嗡嗡声".我怎么能这样做?该算法应该对总是少热的主题进行加权.通常(几乎)没有人提到的主题应该是最热门的主题.
Google提供"热门趋势",topix.com显示"热门话题",fav.or.it显示"关键字趋势" - 所有这些服务都有一个共同点:它们只显示即将出现的异常热门趋势.
像"布兰妮斯皮尔斯","天气"或"帕丽斯·希尔顿"这样的词语不会出现在这些列表中,因为它们总是热门而且频繁.这篇文章称之为"布兰妮斯皮尔斯问题".
我的问题:如何编写算法代码或使用现有算法来解决此问题?如果列表中包含在过去24小时内搜索到的关键字,则该算法应显示10个(例如)最热门的关键字.
我知道,在上面的文章中,提到了某种算法.我试图用PHP编写它,但我认为它不会起作用.它只是找到了大多数,不是吗?
我希望你能帮助我(编码例子会很棒).
这可能看起来很愚蠢..而且没有研究的问题,但相信我不是.我已经做过一些研究.其中一个将是以下链接:http: //www.quora.com/Twitter-1/How-does-Twitter-implement-hashtags
此外,我不是在寻找一个完整的解决方案..我会努力工作,但我只需要一些指导,只想知道我应该采用哪种方式?
我想实现twitter,现在甚至像我的应用程序的hash标签一样.所以用户可以添加带有主题标签的消息,而其他人可以搜索它们.就像趋势和相关内容一样.
我们在存储技术堆栈中使用Mysql,mongo和elasticsearch.任何想法我怎么能开始实现这个?我需要另一个存储空间吗?一种方法是我可以将我的hastags存储在db中,然后在Elasticsearch中对它们进行文本搜索.
在这个领域有更多经验的人可以在这里提出什么建议?