wik*_*iki 2 java database google-app-engine data-migration web-scraping
我必须运行一个抓取任务来收集我的App Engine(Java)应用程序的数据.
我不确定哪个最好 - 在应用程序在生产环境中运行时,在开发模式下抓取数据并将其上传到prod或scrape.
这有什么不同吗?
将大量数据从一个环境带到另一个环境(dev->prod或prod->dev)是否有任何困难?
开发服务器本身可能不是一个很好的抓取工具; 它是单线程的(至少对于python; java实现可能完全不同)数据存储在存储大量数据时相当可怕.
但是,根据您正在抓取的内容,生产服务器可能不适合该任务; 如果站点响应请求的时间超过10秒,则urlfetch API将超时.如果您可以确定这不会有问题,那么在生产中进行抓取并直接写入数据存储可能更方便.
如果没有,可以使用独立工具进行抓取,然后使用RESTful Web服务或远程API将数据放入生产数据存储区.
编辑:生产服务器现在可以在从taskqueue或cron作业启动的urlfetches上设置10分钟超时,因此这些异议可能不再适用.