就像PHP中的DOMDocument类一样,RUBY中有任何类(即核心RUBY),用于从HTML文档中解析和获取节点元素值.
Mar*_*une 44
目前还没有内置的HTML解析器,但是有一些非常好的解析器,特别是Nokogiri.
元答案:对于这些常见需求,我建议您查看Ruby Toolbox网站.您会注意到Nokogiri是HTML解析器的最佳推荐
Ruby Cheerio - ruby 中的 jQuery 风格 HTML 解析器. 用于爬虫的 Nokogiri 的最简化版本。这是最流行的 NodeJS 包Cheerio的 Ruby 版本。
gem 安装 ruby-cheerio
require 'ruby-cheerio'
jQuery = RubyCheerio.new("<html><body><h1 class='one'>h1_1</h1><h1>h1_2</h1></body></html>")
jQuery.find('h1').each do |head_one|
p head_one.text
end
# getting attribute values like jQuery.
p jQuery.find('h1.one')[0].prop('h1','class')
# function chaining similar to jQuery.
p jQuery.find('body').find('h1').first.text
Run Code Online (Sandbox Code Playgroud)
您也可以尝试鹿由约里克Peterse.
它是一个用Ruby编写的XML/HTML解析器,不需要像libxml这样的系统库.你可以在这里找到它.https://github.com/YorickPeterse/oga
归档时间: |
|
查看次数: |
30213 次 |
最近记录: |