使用Selenium保存整页内容

Ric*_*ick 11 selenium

我想知道保存Selenium访问网站时检索到的所有文件的最佳方法是什么.换句话说,当Selenium访问http://www.google.com时,我想保存HTML,JavaScript(包括src标记中引用的脚本),图像以及iframe中包含的可能内容.如何才能做到这一点?

我知道getHTMLSource()将返回主框架主体中的HTML内容,但是如何扩展它以下载再次呈现该页面所需的完整文件集.提前致谢!

Dav*_*unt 7

Selenium不是为此设计的,您可以:

  1. 使用getHtmlSource并解析生成的HTML以引用外部文件,然后可以在Selenium之外下载和存储.
  2. 使用Selenium以外的东西来下载和存储网站的离线版本 - 我相信如果你进行搜索,有很多工具可以做到这一点.例如,WGet可以执行递归下载(http://en.wikipedia.org/wiki/Wget#Recursive_download)

你有什么理由想使用Selenium吗?这是您的测试策略的一部分,还是只是想找到一个可以创建页面脱机副本的工具?

  • 我们之所以要使用Selenium是因为它解析了JavaScript,这对于重建整个页面(包括广告流量)至关重要. (2认同)