按日期为Twitter搜索结果绘制文字云？(使用R)

Question

我希望在Twitter上搜索一个单词(比方说#google),然后能够生成twitts中使用的单词的标签云,但是根据日期(例如,有一个小时的移动窗口,移动到每次10分钟,并告诉我如何在一天中更频繁地使用不同的单词).

我将非常感谢有关如何执行此操作的任何帮助:信息资源,编程代码(R是我唯一使用的语言)和可视化的想法.问题:

我如何获取信息？

在R中,我发现twitteR包具有searchTwitter命令.但我不知道我能从中获得多大的"n".此外,它不会返回twitt起源的日期.

我在这里看到我可以直到1500 twitts,但这需要我手动解析(这导致我进入第2步).另外,就我的目的而言,我需要成千上万的twitts.是否有可能让他们回想起来？(例如,每次通过API URL询问旧帖子？)如果没有,有关如何在家用计算机上创建twitts个人存储的更一般性问题？(这个问题可能最好留给另一个SO线程 - 虽然这里的人们的任何见解对我来说都非常有趣)
如何解析信息(在R中)？我知道R具有可以从rcurl和twitteR包中获得帮助的功能.但我不知道哪个,或者如何使用它们.任何建议都会有所帮助.
怎么分析？如何删除所有"不感兴趣"的单词？我发现R中的"tm"包有这个例子:

路透社< - tm_map(路透社,删除词,停用词("英语"))

这会诀窍吗？我应该做些什么/更多？

另外,我想在根据时间切割我的数据集之后我会这样做(这将需要一些类似posix的函数(我不确定这里需要哪些,或者如何使用它).
最后,还有可视化问题.如何创建单词的标签云？我在这里找到了解决方案,还有其他任何建议/建议吗？

我相信我在这里提出了一个很大的问题,但我试图将其分解为尽可能多的直截了当的问题.欢迎任何帮助!

最好,

塔尔

Answer 1

R中的Word/Tag云使用"snippets"包
www.wordle.net
使用openNLP包你能POS标签的tweet(POS =讲话的一部分),然后只提取名词,动词或形容词在一个wordcloud可视化.
也许你可以查询Twitter和使用当前系统时间作为时间标志,写入到本地数据库并在X秒/分钟等的增量再次查询
有一个在现有的历史数据http://www.readwriteweb.com/archives/twitter_data_dump_infochimp_puts_1b_connections_up.php和http://www.wired.com/epicenter/2010/04/loc-google-twitter/