从Twitter获取有关追随者的大量数据

Leo*_*Bor 5 api twitter

给定Twitter中的页面A和页面B,我想找到同时跟随页面A和B的所有用户。

Twitter确实提供了一种找到关注者的方法:GET关注者/ id

但是,每个请求返回的数目不超过5000,并且每15分钟最多只能发送15个,平均速度为每分钟5000个用户,这显然不适用于拥有数百万个关注者的较大帐户。

有谁知道更好的方式来获取此类数据,最好使用dev API?我的意思是,从技术上讲,我可以尝试模拟浏览器的滚动,但这会非常缓慢,混乱,并且Web客户端可能会使用相同的API。

UPD:

另外,我认为我们可以缩小需要下载的数据量。例如,重叠的数据将需要按年龄,性别或位置进行过滤,因此,如果有一种方法可以将此信息作为参数来提供,从而获得较少的数据,那么这将很好地工作。

此类API的示例:VK中的user.search方法。您可以指定group_id(与正在关注的Twitter帐户等效)并搜索该组的关注者,并按其他参数进行过滤。

Dan*_* T. 2

我认为这并不容易实现,因为关注者的数量受到 64int 的限制,即 255,486,129,307。我认为任何 API 都无法在不进行流式传输或批处理的情况下返回这么多数据。这就是为什么它是碎片化且有局限性的原因。

我建议使用一些流应用程序(例如 Kafka、Amazon Kinesis 或 Azure Event Hub)。

Twitter API 支持流式传输(Twitter API 流),这意味着您可以在生产者(从源获取数据的应用程序)中请求所需的信息流,然后生产者将数据发送/流式传输到某个主题,然后您可以从那里批量获取并显示它。

当然,有两种情况,要么您需要将关注者存储在数据库中并更新更改,要么每次从头读取流,这将导致明显的延迟。

我建议将流数据保存在数据库中并在更改时更新它。(NoSQL 将是一个完美的解决方案)