除了SeleniumRC,还有什么好的工具可以获取网页,包括JavaScript后期绘制的内容?

dan*_*dan 8 wget html http curl selenium

一个主要的缺点curl是越来越多的网页的主要内容是由在初始 HTTP 响应之后发生的 JavaScript AJAX 响应绘制的。curl从不接受这个后期绘制的内容。

因此,为了从命令行获取这些类型的网页,我只能用 Ruby 编写脚本来驱动 SeleniumRC 启动 Firefox 实例,然后在这些 AJAX 调用完成后返回源 HTML。

为此类问题提供更精简的命令行解决方案会好得多。有谁知道吗?

Mic*_*ntz 2

我最近刚刚开始在 Java 中使用 Selenium 2 的 WebDriver。有一个名为 HtmlUnitDriver 的驱动程序,它完全支持 JavaScript,但不会启动实际的浏览器。

这不是一个简单的解决方案,但它确实可以完成工作。

我设计了从命令行运行的代码并将网络数据保存到文件中。