Tal*_*ili 3 database twitter visualization r
我希望在Twitter上搜索一个单词(比方说#google),然后能够生成twitts中使用的单词的标签云,但是根据日期(例如,有一个小时的移动窗口,移动到每次10分钟,并告诉我如何在一天中更频繁地使用不同的单词).
我将非常感谢有关如何执行此操作的任何帮助:信息资源,编程代码(R是我唯一使用的语言)和可视化的想法.问题:
我如何获取信息?
在R中,我发现twitteR包具有searchTwitter命令.但我不知道我能从中获得多大的"n".此外,它不会返回twitt起源的日期.
我在这里看到我可以直到1500 twitts,但这需要我手动解析(这导致我进入第2步).另外,就我的目的而言,我需要成千上万的twitts.是否有可能让他们回想起来?(例如,每次通过API URL询问旧帖子?)如果没有,有关如何在家用计算机上创建twitts个人存储的更一般性问题?(这个问题可能最好留给另一个SO线程 - 虽然这里的人们的任何见解对我来说都非常有趣)
如何解析信息(在R中)?我知道R具有可以从rcurl和twitteR包中获得帮助的功能.但我不知道哪个,或者如何使用它们.任何建议都会有所帮助.
怎么分析?如何删除所有"不感兴趣"的单词?我发现R中的"tm"包有这个例子:
路透社< - tm_map(路透社,删除词,停用词("英语"))
这会诀窍吗?我应该做些什么/更多?
另外,我想在根据时间切割我的数据集之后我会这样做(这将需要一些类似posix的函数(我不确定这里需要哪些,或者如何使用它).
我相信我在这里提出了一个很大的问题,但我试图将其分解为尽可能多的直截了当的问题.欢迎任何帮助!
最好,
塔尔
www.wordle.net
使用openNLP包你能POS标签的tweet(POS =讲话的一部分),然后只提取名词,动词或形容词在一个wordcloud可视化.