我怎样才能使用Nokogiri让html实体(如德语变音符号)不受影响?
即:
# this is fine
node = Nokogiri::HTML.fragment('<p>ö</p>')
node.to_s # => '<p>ö</p>'
# this is not
node = Nokogiri::HTML.fragment('<p>ö</p>')
node.to_s # => '<p>ö</p>'
# this is what I need
node = Nokogiri::HTML.fragment('<p>ö</p>')
node.to_s # => '<p>ö</p>'
Run Code Online (Sandbox Code Playgroud)
我试图弄乱PARSE_OPTIONS和:save_with选项,但无法想出让Nokogiri透明地表现得像上面那样的方法.
有什么指针吗?
这个字符是什么: â\u0080\u0099 ?
这应该是撇号或单引号。
如何将它(使用 Ruby)转换为简单的单引号 ' 或在网页中正确显示为单引号?
谢谢