我正在寻找自己的写作,但我想知道是否有任何用Ruby编写的好的网络爬虫.
如果没有一个完整的网络爬虫,任何可能有助于构建网络爬虫的宝石都会很有用.我知道这个问题的这一部分在几个地方都有涉及,但适用于构建网络爬虫的宝石列表也是一个很好的资源.
the*_*Man 68
我曾经为我的工作写过蜘蛛,页面刮刀和网站分析器,并且还会定期写它们来解决我得到的一些问题.
Ruby有一些优秀的宝石可以让它变得简单:
OpenURI作为一个简单的HTTP客户端很好,但是当你想要做更复杂的事情或者需要同时触发多个请求时,它会受到影响.我建议使用Hydra来查看HTTPClient或Typhoeus,以获得适度到重量级的工作.Curb也很好,因为它使用了cURL库,但界面对我来说并不直观.值得关注一下.HTTPclient也值得一看,但我倾向于前面提到的那些.
注意:OpenURI有一些缺陷和漏洞可能会影响毫无戒心的程序员,所以它有点不受欢迎.RestClient是一个非常有价值的继任者.
<a>专门查找标签更多的工作.就此而言,Mechanize还具有links返回页面中所有链接的方法,但您仍需要对其进行过滤以确定是要跟踪还是忽略它们.毕竟,您还需要让您的代码了解正确的蜘蛛礼仪:创建网络爬虫时的关键考虑因素是什么?
Fel*_*ima 19
我正在构建wombat,一个Ruby DSL来抓取网页并提取内容.在github上查看它https://github.com/felipecsl/wombat
它仍处于早期阶段,但已经具备基本功能.很快就会添加更多内容.
所以你想要一个好的基于Ruby的网络爬虫?
尝试蜘蛛或海葵.根据RubyGems下载计数,两者都有可靠的用法.
到目前为止,其他答案都是详细而有用的,但他们没有像激光一样专注于这个问题,它要求网页抓取工具使用ruby库.看起来这种区别可能会变得混乱:看看我对"爬网与网络刮痧?"的回答.
| 归档时间: |
|
| 查看次数: |
19817 次 |
| 最近记录: |