我已经创建了一个运行良好的php/mysql scraper,并且不知道如何最有效地将其作为cron作业运行.
有300个网站,每个网站都有20到200页被刮掉.刮掉所有站点需要4-7个小时(取决于网络延迟和其他因素).刮刀需要每天完成一次完整的运行.
我应该将其作为1个cron作业运行,运行整个4-7小时,或者每小时运行7次,或者每10分钟运行一次直到完成?
该脚本设置为从cron运行,如下所示:
while($starttime+600 > time()){
do_scrape();
}
Run Code Online (Sandbox Code Playgroud)
这将运行do_scrape()函数,该函数一次擦除10个URL,直到(在这种情况下)600秒已经过去.do_scrape可能需要5到60秒才能运行.
我在这里问我因为我无法在网上找到关于如何运行这个的任何信息,并且对于每天运行这个有点警惕,因为php并不是真的被设计为在7小时内作为单个脚本运行.
我用vanilla PHP/mysql编写了它,它运行在减少debian VPS上,只安装了lighttpd/mysql/php5.我已经运行它超时6000秒(100分钟)没有任何问题(服务器没有倒下).
任何有关如何执行此任务的建议表示赞赏.我应该注意什么......?还是我要执行这一切都错了?
谢谢!
长时间运行编写良好的PHP脚本没有任何问题.我有一些脚本几乎连续运行了好几个月.只是看你的内存使用情况,你应该没事.
也就是说,您的架构非常基础,并且不太可能扩展.
您可以考虑从一个庞大的单片脚本转变为分而治之的策略.例如,听起来您的脚本正在对每个URL进行同步请求.如果这是真的,那么大部分7小时的运行时间都在等待来自某个远程服务器的响应.
在一个理想的世界里,你不会写这种东西PHP.一些处理线程并且可以使用回调轻松执行异步http请求的语言将更加适合.
也就是说,如果我在PHP中这样做的话,我的目标是创建一个脚本,让N个孩子从URL中获取数据,并将响应数据粘贴到某种工作队列中,然后再使用另一个脚本一直运行,处理它在队列中找到的任何工作.
然后你只需要你的fetcher-script-manager一小时运行一次,它管理一些获取数据的工作进程(在parellel中,所以延迟不会杀死你),并将工作放在队列上.然后,queue-cruncher会看到队列中的工作并对其进行处理.
根据您实现队列的方式,这可以很好地扩展.您可以使用多个框来获取远程数据,并将其粘贴在某个中央队列框中(使用mysql或memcache或其他任何方式实现队列).你甚至可以想象有多个盒子从队列中完成工作并完成工作.
当然,魔鬼在细节中,但这种设计通常比单线程fetch-process-repeat脚本更具可伸缩性并且通常更强大.