在Ruby中解析HTML文档的方法？

Question

在Ruby中解析HTML文档的方法？

Har*_*rup 28 ruby html-parser

就像PHP中的DOMDocument类一样,RUBY中有任何类(即核心RUBY),用于从HTML文档中解析和获取节点元素值.

Answer 1

Mar*_*une 44

目前还没有内置的HTML解析器,但是有一些非常好的解析器,特别是Nokogiri.

元答案:对于这些常见需求,我建议您查看Ruby Toolbox网站.您会注意到Nokogiri是HTML解析器的最佳推荐

Answer 2

Pet*_*ter 9

你应该看看hpricot.这非常好.它不是'核心'红宝石,但它是一种常用的宝石.

可悲的是,Hpricot已经不在了.Nokogiri现在是首选的解决方案. (2认同)

Answer 3

din*_*abu 6

Ruby Cheerio - ruby 中的 jQuery 风格 HTML 解析器. 用于爬虫的 Nokogiri 的最简化版本。这是最流行的 NodeJS 包Cheerio的 Ruby 版本。

点击链接查看简单的爬虫示例。

gem 安装 ruby-cheerio

require 'ruby-cheerio'

jQuery = RubyCheerio.new("<html><body><h1 class='one'>h1_1</h1><h1>h1_2</h1></body></html>")

jQuery.find('h1').each do |head_one|
    p head_one.text
end

# getting attribute values like jQuery.
p jQuery.find('h1.one')[0].prop('h1','class')

# function chaining similar to jQuery.
p jQuery.find('body').find('h1').first.text

Run Code Online (Sandbox Code Playgroud)

Answer 4

mic*_*ino 5

您也可以尝试鹿由约里克Peterse.

它是一个用Ruby编写的XML/HTML解析器,不需要像libxml这样的系统库.你可以在这里找到它.https://github.com/YorickPeterse/oga

归档时间：	15 年，8 月前
查看次数：	30213 次
最近记录：	8 年，10 月前