我可以使用Watir从没有显示器的Linux服务器上的网站上抓取数据吗?

Rad*_*dek 5 linux watir web-scraping

我可以使用Watir从网站(使用AJAX)中获取数据,但是在没有显示器的Linux服务器上?(linode.com)?

jar*_*rib 9

做这件事有很多种方法:

  1. 使用HtmlUnit,Celeritywatir-webdriver(通过远程Selenium2/WebDriver服务器).

  2. 使用真正的浏览器+虚拟X服务器(Xvfb).我建议使用watir-webdriver的Firefox驱动程序和Headless gem来简单地从Ruby控制它.

这基本上是速度与现实之间的权衡.就个人而言,如果网站有任何复杂的JavaScript或无效的HTML,我会选择#2,但这两种方法都值得研究.

对于未来,我一直关注这个项目,这看起来很棒.