相关疑难解决方法(0)

无头浏览器和抓取 - 解决方案

我正在尝试为浏览器自动测试套件和能够抓取的无头浏览器平台列出可能的解决方案列表.

浏览器测试/清除:

Selenium - 浏览器自动化中的多语言旗舰,Python,Ruby,JavaScript,C#,Haskell等的绑定,用于Firefox的IDE(作为扩展),用于更快的测试部署.可以充当服务器并具有大量功能.

JAVASCRIPT

PhantomJS - JavaScript,带有屏幕捕获和自动化的无头测试,使用Webkit.从版本1.8开始,实现了Selenium的WebDriver API,因此您可以使用任何WebDriver绑定,并且测试将与Selenium兼容
SlimerJS - 与PhantomJS类似,使用Gecko(Firefox)代替WebKit
CasperJS - 基于PhantomJS和SlimerJS构建的JavaScript具有额外的功能
Ghost驱动程序 - 用于PhantomJS的WebDriver Wire协议的JavaScript实现.
新的 PhantomCSS - CSS回归测试.CasperJS模块,用于使用PhantomJS和 Resemble.js自动进行可视化回归测试.
新 WebdriverCSS -插件为 Webdriver.io自动化视觉回归测试
新的 PhantomFlow - 通过测试描述和可视化用户流.Web用户界面测试的实验方法.
new trifleJS - 将PhantomJS API移植到使用Internet Explorer引擎.
新的 CasperJS IDE (商业)

Node.js的

Node-phantom - 填补了PhantomJS和node.js之间的空白
WebDriverJs - Selenium团队对node.js的Selenium WebDriver绑定
WD.js - WebDriver/Selenium 2的节点模块
yiewd - …

selenium scrapy web-scraping phantomjs casperjs

362
推荐指数

3
解决办法

7万
查看次数

使用Javascript获取最终HTML将Java呈现为字符串

我想从HTML页面获取数据(刮掉它).但它包含javascript中的评论.在普通的java url fetch中,我只获得了没有执行Javascript的HTML(实际的).我想要执行Javascript的最终页面.

示例: - http://www.glamsham.com/movies/reviews/rowdy-rathore-movie-review-cheers-for-rowdy-akki-051207.asp

此页面的评论为facebook插件,以Javascript格式提取.

即使在此也类似于此. http://www.imdb.com/title/tt0848228/reviews

我该怎么办？

javascript java web-scraping

10
推荐指数

2
解决办法

8837
查看次数

可以用Cheerio刮掉React网站(Instagram)吗？

我正试图用Node.js/Cheerio刮掉Instagram(用React构建).调试文档显示返回的对象,但它看起来不像典型的响应.

我猜这与React有关.有没有办法绕过这个,拉动渲染的DOM来解析Cheerio？或者我完全错过了什么？

提前致谢.

node.js web-scraping cheerio reactjs

7
推荐指数

1
解决办法

8664
查看次数

标签统计

web-scraping ×3

java ×1