谷歌应用程序引擎数据存储标签云与python

pro*_*ach 5 python google-app-engine tag-cloud

我们的应用引擎数据存储区中有一些非结构化的文本数据.我想在数据存储区对象的子集上创建一个属性的"一次性"标记云.环顾四周之后,我看不到任何框架可以让我在没有自己写的情况下做到这一点.

我的想法是:

  • 写一个map(如map reduce)函数来遍历数据存储区中特定类型的每个对象,
  • 将文本字符串拆分为单词
  • 对于每个单词增加一个计数器
  • 使用最终计数通过一些第三方软件生成标签云(离线 - 欢迎提出任何建议)

因为我之前从未这样做过,所以如果首先有一些框架可以帮助我(),如果不是我以正确的方式接近它,我就会徘徊.即请随意指出计划中的漏洞.

Ezr*_*zra 5

Feed TagCloudPyTagCloud是两种可能性.

  • Google App Engine的Feed TagCloud Generator小工具可能符合您的需求.不幸的是,它没有记录.幸运的是,它很简单,但我不确定它对你的需求有多么合适.

    它在feed上运行,并且看起来有点灵活,所以如果你有一个站点的源,集成可能不会太麻烦,尽管所有处理都是在线的.

  • PyTagCloud也值得一看.您将能够离线进行处理,并生成相当漂亮的云.

    所有你需要做的就是导出你的数据存储区; 计数和拆分将为您完成,因为PyTagCloud可以对文本文件进行操作.按照App Engine中有关上传和下载数据的说明,将向您展示如何将数据存储导出到本地计算机.您将要编写"Exporter Class",并让PyTagCloud对输出进行操作.


如果你决定自己动手,你可能想跳过在线处理并使用上面的上传和下载数据的离线方法,除非你想要一个动态更新的云.迭代整个数据存储,进行在线计数是任务中最烦人且最昂贵的部分.如果您想要或需要动态标签云,这样做才有意义.如上所述,我建议编写一个"Exporter Class",然后在本地操作.