如何刮掉大量的推文

Question

我正在python中构建一个需要抓取大量Twitter数据的项目.像100万用户和所有推文都需要被删除.

以前我使用过Tweepy和Twython,但是很快就达到了Twitter的极限.

情绪分析公司等如何获取他们的数据？他们如何得到所有这些推文？你是在某个地方购买或者构建通过不同代理或其他东西进行迭代的东西吗？

像Infopimps这样的公司,例如Trst rank如何获得所有数据？*http://www.infochimps.com/datasets/twitter-census-trst-rank

Answer 1

我不知道这是否适用于你想要做的事情,但最近发布了Tweets2011数据集.

从描述:

作为TREC 2011微博跟踪的一部分,Twitter提供了2011年1月23日至2月8日期间大约1600万条推文的标识符.该语料库旨在成为twittersphere的可重复使用的代表性样本 - 即包括重要和垃圾邮件的推文.

Answer 2

如果您想要特定用户的最新推文,Twitter会提供Streaming API.

Streaming API是Twitter Firehose的实时样本.此API适用于具有数据密集型需求的开发人员.如果您正在寻求构建数据挖掘产品或对分析研究感兴趣,Streaming API最适合此类事物.

如果您尝试访问旧信息,那么具有严格请求限制的REST API是唯一的方法.