nik*_*k-v 5 ruby mechanize watir nokogiri scrapy
我需要抓住多家公司的职业网页(经过他们的许可).
决定我使用什么的重要因素
我的疑惑
编辑
使用Watir-webdriver + Nokogiri结束,这样我就可以在存储数据的同时利用活动记录.在提取数据时,Nokogiri比Watir-webdriver快得多.
Scrapy本来会更快,但速度权衡并不像处理scrapy中不同类型网站的复杂性权衡那样重要(例如,我必须通过一些目标网站上的ajax驱动搜索).
希望这有助于某人.
如果速度很重要,您可以使用watir-webdriver gem 来驱动PhantomJS(支持 JavaScript 的无头浏览器)。在 PhantomJS 中打开任何页面,如果 watir-webdriver 太慢而无法从中获取数据,您可以将渲染的 HTML 传递给Nokogiri。
阅读更多:
| 归档时间: |
|
| 查看次数: |
4054 次 |
| 最近记录: |