使用Nokogiri,我如何关闭无与伦比的标签?

Jen*_*ger 3 ruby nokogiri

我正在使用Nokogiri抓取HTML文档,其中许多可能有未封闭的标签.例如,我想关闭"未关闭"的<p>标签.

我查看了文档并查看"Nokogiri纠正了坏标记"的位置,但我没有看到一个很好的方法来做到这一点.

也许它需要遍历每个元素并关闭任何不匹配的标签?

aku*_*uhn 7

Nokogiri自动修复它们.

您可以使用inner_html获取更正的HTML代码

require 'rubygems'
require 'nokogiri'
doc = Nokogiri::HTML.parse('<p>')
doc.inner_html # => "<html><body><p></p></body></html>"
Run Code Online (Sandbox Code Playgroud)