是否有MongoDB趋势主题宝石?

chr*_*mer 2 ruby ruby-on-rails trending mongodb mongoid

我在MongoDB中有一组文档,其中包含有关推文大小的"描述"值.我需要从中生成趋势主题列表.显然这是一个已解决的问题,但我无法找到一个明确的答案/宝石,无需自己编写代码即可完成工作.

我在我的应用程序中使用ruby&mongoid.

是否有任何红宝石宝石可以帮助或处理这个?谢谢.

cly*_*yfe 6

我知道没有这样的宝石,但这是你可能为自己写的算法:

  1. 从文本中提取n-gram.由于文本很小(你说的推文大小)提取所有n-gram,这里没有限制.

    "I eat icecream" => {(I), (eat), (icecream), (I eat), (eat icecream), (I eat icecream)}

  2. 计算每个文本的n-gram的TF-IDF权重向量

    {(I):0.1, (eat):0.01, (icecream):0.2, (I eat):0.12, (eat icecream):0.001, (I eat icecream):0.00012}

  3. 使用余弦相似度作为增量聚类算法的度量函数,可以通过JRuby脚本编写Weka

  4. 按人口规模排序所有集群.最大集群中心的n-gram是您的时尚话题.