jhs*_*701 10 ruby lxml html-parsing scrape
我正在尝试在我正在处理的Ruby脚本中抓取网页.该项目的目的是显示哪些ETF和股票共同基金与价值投资理念最相容.
我要抓的页面的一些例子是:
http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
Run Code Online (Sandbox Code Playgroud)
你为Ruby推荐什么网络抓取工具?为什么?请记住,那里有成千上万的股票基金,所以我使用的任何工具都必须相当快.
我是Ruby的新手,但我有使用lxml在Python中抓取网页的经验(https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py).一旦下载了5000多只股票的页面,lxml就可以在几分钟内完成所有这些操作.(我记得尝试过BeautifulSoup但拒绝它,因为它太慢了.)
Rah*_*ali 22
有这么多scraping gems
提供Ruby
像角度来说,Hpricot,引入nokogiri和这么多.我建议Nokogiri
刮static web pages
.如果你正在抓dynamic web pages
(意味着涉及按钮点击,提交表格等..).我推荐内部使用的MechanizeNokogiri
.
归档时间: |
|
查看次数: |
9183 次 |
最近记录: |