网络爬虫在groovy和grails每天爬行

use*_*772 1 grails groovy web-crawler

我需要实现一个网络爬虫来抓取一个网站,每天获取数据.做这个的最好方式是什么?我应该写一个时髦的剧本并让它每天重复吗?如果我使用脚本,我不能使用域类.

有什么建议吗?

sbg*_*ius 5

我建议使用XmlSlurper从站点读取数据,在Grails的服务中创建它,并使用Quartz插件来安排它.这样你就可以访问Grails中的域模型了,你可以使用slurper的酷炫来获取HTML.您可能还需要一个像Nekohtml http://nekohtml.sourceforge.net这样的解析器.