网络爬虫在groovy和grails每天爬行

Question

网络爬虫在groovy和grails每天爬行

我需要实现一个网络爬虫来抓取一个网站,每天获取数据.做这个的最好方式是什么？我应该写一个时髦的剧本并让它每天重复吗？如果我使用脚本,我不能使用域类.

有什么建议吗？

Answer 1

我建议使用XmlSlurper从站点读取数据,在Grails的服务中创建它,并使用Quartz插件来安排它.这样你就可以访问Grails中的域模型了,你可以使用slurper的酷炫来获取HTML.您可能还需要一个像Nekohtml http://nekohtml.sourceforge.net这样的解析器.

归档时间：	12 年，11 月前
查看次数：	1585 次
最近记录：	12 年，10 月前