我最近注意到使用Nokogiri的一些奇怪的事情.我解析过的所有HTML都被赋予了开始和结束<html>以及<body>标签.
<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\" \"http://www.w3.org/TR/REC-html40/loose.dtd\">\n<html><body>\n
Run Code Online (Sandbox Code Playgroud)
我如何防止Nokogiri这样做?
IE,当我这样做:
doc = Nokogiri::HTML("<div>some content</div>")
doc.to_s
Run Code Online (Sandbox Code Playgroud)
要么:
doc.to_html
Run Code Online (Sandbox Code Playgroud)
我得到原件:
<html blah><body>div>some content</div></body></html>
Run Code Online (Sandbox Code Playgroud)