按日期为Twitter搜索结果绘制文字云?(使用R)

Tal*_*ili 3 database twitter visualization r

我希望在Twitter上搜索一个单词(比方说#google),然后能够生成twitts中使用的单词的标签云,但是根据日期(例如,有一个小时的移动窗口,移动到每次10分钟,并告诉我如何在一天中更频繁地使用不同的单词).

我将非常感谢有关如何执行此操作的任何帮助:信息资源,编程代码(R是我唯一使用的语言)和可视化的想法.问题:

  1. 我如何获取信息?

    在R中,我发现twitteR包具有searchTwitter命令.但我不知道我能从中获得多大的"n".此外,它不会返回twitt起源的日期.

    在这里看到我可以直到1500 twitts,但这需要我手动解析(这导致我进入第2步).另外,就我的目的而言,我需要成千上万的twitts.是否有可能让他们回想起来?(例如,每次通过API URL询问旧帖子?)如果没有,有关如何在家用计算机上创建twitts个人存储的更一般性问题?(这个问题可能最好留给另一个SO线程 - 虽然这里的人们的任何见解对我来说都非常有趣)

  2. 如何解析信息(在R中)?我知道R具有可以从rcurl和twitteR包中获得帮助的功能.但我不知道哪个,或者如何使用它们.任何建议都会有所帮助.

  3. 怎么分析?如何删除所有"不感兴趣"的单词?我发现R中的"tm"包有这个例子:

    路透社< - tm_map(路透社,删除词,停用词("英语"))

    这会诀窍吗?我应该做些什么/更多?

    另外,我想在根据时间切割我的数据集之后我会这样做(这将需要一些类似posix的函数(我不确定这里需要哪些,或者如何使用它).

  4. 最后,还有可视化问题.如何创建单词的标签云?我在这里找到了解决方案,还有其他任何建议/建议吗?

我相信我在这里提出了一个很大的问题,但我试图将其分解为尽可能多的直截了当的问题.欢迎任何帮助!

最好,

塔尔

har*_*hal 6