use*_*691 14 python cloud virtual web-crawler server
我有一个网络爬行python脚本,需要几个小时才能完成,并且在我的本地计算机上完全运行是不可行的.有没有一种方便的方法将其部署到简单的Web服务器?该脚本基本上将网页下载到文本文件中.如何才能最好地完成?谢谢!
由于您说性能是一个问题,并且您正在进行网络爬网,因此首先要尝试的是一个Scrapy框架-它是一种非常快速且易于使用的网络爬网框架。scrapyd工具将允许您分发爬网-您可以scrapyd在不同的服务器上运行多个服务,并在每个服务器之间分配负载。看到:
那里还有一项Scrapy Cloud服务:
Scrapy Cloud将高效的Scrapy开发环境与功能强大的功能强大的生产环境架起了桥梁,以部署和运行您的爬网。就像Scrapy的Heroku一样,尽管在不久的将来还将支持其他技术。它在Scrapinghub平台之上运行,这意味着您的项目可以根据需要按需扩展。