Node.js或Ruby for Scraping

Question

我正在尝试制作一个需要从多个网站抓取大量数据的应用程序.我尝试使用Ruby来抓取网站,但像Mechanize这样的宝石似乎只是抓取静态页面而不是动态内容.关于这个项目中我应该使用哪种语言或任何其他语言,我有几个问题(我正在考虑使用Node,因为应用程序中的很多元素必须是实时的).

提前致谢!

Answer 1

您可以使用capybaragem来使用ruby来抓取javascript网站.

这具有能够通过selenium驱动程序使用诸如Firefox,Chrome和IE的实际浏览器的优点.或者你可以使用无头浏览器,如webkit(通过capybara-webkit)或phantomjs(通过poltergeist).

当你使用水豚时,请务必使用支持javascript的驱动程序,例如selenium或capybara-webkit.我当天的司机是吵闹的.

有一些说明如何在自述文件中使用带有远程站点的水豚.

Node vs. Ruby是一个非常开放的问题.我的回答是建议Ruby,因为这是我的经验和偏好."结合"它们可能意味着许多事情,它们可以一起使用,每个都发挥自己的优势.