use*_*ert 5 javascript web-crawler phantomjs cheerio nightwatch.js
我们有几个旧站点正在进行升级。如果能够对每个页面进行屏幕截图,然后对两个域的结果进行 md5 求和,然后测试呈现的所有内容是否 100% 匹配,这将非常有用。
我不确定如何做到这一点 - 我们已经研究了cheerio哪些可以抓取网站但无法抓取屏幕截图,以及 nightwatch 可以抓取屏幕截图但不能抓取网站。有人有这样做的经验吗?
一个简单的解决方案是在无头模式下使用Chrome,该模式也可以通过许多 Node 模块(如Puppeteer)进行控制。
摘自 Google 开发者页面:
chrome --headless --disable-gpu --screenshot https://www.chromestatus.com/
Run Code Online (Sandbox Code Playgroud)
关于抓取,您可以混合使用 Cheerio 和 Puppeteer 来抓取链接并进行屏幕截图。或者,您可以找到一些工具,允许导出包含所有网站 URL 的站点地图(示例),此时应该很容易循环遍历它们并截取每个屏幕截图。
| 归档时间: |
|
| 查看次数: |
2963 次 |
| 最近记录: |