Node.js或Ruby for Scraping

Kar*_*nis 1 ruby screen-scraping node.js web-scraping ruby-on-rails-3

我正在尝试制作一个需要从多个网站抓取大量数据的应用程序.我尝试使用Ruby来抓取网站,但像Mechanize这样的宝石似乎只是抓取静态页面而不是动态内容.关于这个项目中我应该使用哪种语言或任何其他语言,我有几个问题(我正在考虑使用Node,因为应用程序中的很多元素必须是实时的).

  1. 是否可以使用Ruby和/或Node来抓取动态内容?如果是这样,应该使用哪些工具?
  2. 如果多个用户要从多个站点进行搜索,您会建议使用哪种语言?
  3. 稍微不相关的说明,是否可以组合Node和Rails?

提前致谢!

Dan*_*ans 6

您可以使用capybaragem来使用ruby来抓取javascript网站.

这具有能够通过selenium驱动程序使用诸如Firefox,Chrome和IE的实际浏览器的优点.或者你可以使用无头浏览器,如webkit(通过capybara-webkit)或phantomjs(通过poltergeist).

当你使用水豚时,请务必使用支持javascript的驱动程序,例如selenium或capybara-webkit.我当天的司机是吵闹的.

有一些说明如何在自述文件中使用带有远程站点的水豚.

Node vs. Ruby是一个非常开放的问题.我的回答是建议Ruby,因为这是我的经验和偏好."结合"它们可能意味着许多事情,它们可以一起使用,每个都发挥自己的优势.