我正在使用Nokogiri抓取HTML文档,其中许多可能有未封闭的标签.例如,我想关闭"未关闭"的<p>标签.
我查看了文档并查看"Nokogiri纠正了坏标记"的位置,但我没有看到一个很好的方法来做到这一点.
也许它需要遍历每个元素并关闭任何不匹配的标签?
Nokogiri自动修复它们.
您可以使用inner_html获取更正的HTML代码
require 'rubygems'
require 'nokogiri'
doc = Nokogiri::HTML.parse('<p>')
doc.inner_html # => "<html><body><p></p></body></html>"
Run Code Online (Sandbox Code Playgroud)