是否更容易为开发中的gae应用程序抓取数据并将其上传到prod或者你应该在生产中刮掉?

wik*_*iki 2 java database google-app-engine data-migration web-scraping

我必须运行一个抓取任务来收集我的App Engine(Java)应用程序的数据.

我不确定哪个最好 - 在应用程序在生产环境中运行时,在开发模式下抓取数据并将其上传到prod或scrape.

这有什么不同吗?

将大量数据从一个环境带到另一个环境(dev->prodprod->dev)是否有任何困难

Woo*_*ble 6

开发服务器本身可能不是一个很好的抓取工具; 它是单线程的(至少对于python; java实现可能完全不同)数据存储在存储大量数据时相当可怕.

但是,根据您正在抓取的内容,生产服务器可能不适合该任务; 如果站点响应请求的时间超过10秒,则urlfetch API将超时.如果您可以确定这不会有问题,那么在生产中进行抓取并直接写入数据存储可能更方便.

如果没有,可以使用独立工具进行抓取,然后使用RESTful Web服务或远程API将数据放入生产数据存储区.


编辑:生产服务器现在可以在从taskqueue或cron作业启动的urlfetches上设置10分钟超时,因此这些异议可能不再适用.