我有一个需要抓取、解析然后将结果数据存储在数据库中的网页列表。总数约为 5,000,000。
我目前对解决此问题的最佳方法的假设是部署约 100 个 EC2 实例,为每个实例提供 50,000 个页面进行抓取,然后让它继续运行,然后在该过程完成后将数据库合并在一起。假设运行大约需要一天时间(加载、解析和保存每个页面需要 600 毫秒)。
有没有人有在有限的时间内完成如此大量页面抓取的经验?我以前做过大数字(1.5m),但那是从一台机器上完成的,只花了一个多星期才完成。
我的情况的瓶颈是页面的下载,解析时间不超过 2 毫秒,所以可以简化页面下载过程的东西就是我正在寻找的。