从网址列表下载<非常大>页数的最佳方法是什么？

Question

我要下载并保存在数据库中的列表中有一个大于100,000个url（不同的域），以便进行进一步处理和修改。

使用scrapy代替python的多处理/多线程处理是否明智？如果是，我如何编写独立脚本来执行相同操作？

另外，请随意提出其他令人敬畏的方法。

Answer 1

如果您非常了解要获取的 URL（这里不涉及爬行），那么 Scrapy 在这里似乎并不相关。

我想到的最简单的方法是使用Requests. 但是，按顺序查询每个 URL 并阻止等待答案效率不高，因此您可以考虑GRequests异步发送批量请求。

从网址列表下载&lt;非常大&gt;页数的最佳方法是什么？