我正在尝试为浏览器自动测试套件和能够抓取的无头浏览器平台列出可能的解决方案列表.
浏览器测试/清除:
JAVASCRIPT
Node.js的
我想从HTML页面获取数据(刮掉它).但它包含javascript中的评论.在普通的java url fetch中,我只获得了没有执行Javascript的HTML(实际的).我想要执行Javascript的最终页面.
示例: - http://www.glamsham.com/movies/reviews/rowdy-rathore-movie-review-cheers-for-rowdy-akki-051207.asp
此页面的评论为facebook插件,以Javascript格式提取.
即使在此也类似于此. http://www.imdb.com/title/tt0848228/reviews
我该怎么办?
我正试图用Node.js/Cheerio刮掉Instagram(用React构建).调试文档显示返回的对象,但它看起来不像典型的响应.
我猜这与React有关.有没有办法绕过这个,拉动渲染的DOM来解析Cheerio?或者我完全错过了什么?
提前致谢.
web-scraping ×3
casperjs ×1
cheerio ×1
java ×1
javascript ×1
node.js ×1
phantomjs ×1
reactjs ×1
scrapy ×1
selenium ×1