从Twitter获取有关追随者的大量数据

Question

给定Twitter中的页面A和页面B，我想找到同时跟随页面A和B的所有用户。

Twitter确实提供了一种找到关注者的方法：GET关注者/ id

但是，每个请求返回的数目不超过5000，并且每15分钟最多只能发送15个，平均速度为每分钟5000个用户，这显然不适用于拥有数百万个关注者的较大帐户。

有谁知道更好的方式来获取此类数据，最好使用dev API？我的意思是，从技术上讲，我可以尝试模拟浏览器的滚动，但这会非常缓慢，混乱，并且Web客户端可能会使用相同的API。

UPD：

另外，我认为我们可以缩小需要下载的数据量。例如，重叠的数据将需要按年龄，性别或位置进行过滤，因此，如果有一种方法可以将此信息作为参数来提供，从而获得较少的数据，那么这将很好地工作。

此类API的示例：VK中的user.search方法。您可以指定group_id（与正在关注的Twitter帐户等效）并搜索该组的关注者，并按其他参数进行过滤。

Answer 1

我认为这并不容易实现，因为关注者的数量受到 64int 的限制，即 255,486,129,307。我认为任何 API 都无法在不进行流式传输或批处理的情况下返回这么多数据。这就是为什么它是碎片化且有局限性的原因。

我建议使用一些流应用程序（例如 Kafka、Amazon Kinesis 或 Azure Event Hub）。

Twitter API 支持流式传输（Twitter API 流），这意味着您可以在生产者（从源获取数据的应用程序）中请求所需的信息流，然后生产者将数据发送/流式传输到某个主题，然后您可以从那里批量获取并显示它。

当然，有两种情况，要么您需要将关注者存储在数据库中并更新更改，要么每次从头读取流，这将导致明显的延迟。

我建议将流数据保存在数据库中并在更改时更新它。（NoSQL 将是一个完美的解决方案）