use*_*772 1 grails groovy web-crawler
我需要实现一个网络爬虫来抓取一个网站,每天获取数据.做这个的最好方式是什么?我应该写一个时髦的剧本并让它每天重复吗?如果我使用脚本,我不能使用域类.
有什么建议吗?
我建议使用XmlSlurper从站点读取数据,在Grails的服务中创建它,并使用Quartz插件来安排它.这样你就可以访问Grails中的域模型了,你可以使用slurper的酷炫来获取HTML.您可能还需要一个像Nekohtml http://nekohtml.sourceforge.net这样的解析器.
| 归档时间: | 
 | 
| 查看次数: | 1585 次 | 
| 最近记录: |