具有XPath编码问题的DOMDocument.[?]很多测试

Gre*_*ego 3 php encoding xpath dom

$msg = "<body><a>áéíóú????</a></body>";
$temp_dom = new DOMDocument();    
$temp_dom->loadHTML($msg);    
$dom_xpath = new DOMXpath($temp_dom);   
$ele = $dom_xpath->query('//a')->item(0);

echo "<pre>";
echo "Original: $msg\n";
echo $ele->nodeValue;     
echo "</pre>";
Run Code Online (Sandbox Code Playgroud)

输出:

Original: áéíóú????
áéíóúâ»â¥â¦â£
Run Code Online (Sandbox Code Playgroud)

当前文档编码为utf-8.我也试过ANSI,同样的问题也发生了.

utf8_decode解决了这个问题

echo utf8_decode($ele->nodeValue);
Run Code Online (Sandbox Code Playgroud)

但问题是,我使用了很多属性和很多函数,我必须在每一个函数中使用utf8_decode,我相信这不是正确的事情.有人知道我怎么能这样做?

请在发布结果之前使用此测试并进行测试,因为我已经尝试过很多东西.

非常感谢你提前.

lon*_*day 5

问题是你需要告诉DOMDocument在解析HTML时编码是什么.您无法通过设置encoding选项来执行此操作.(我认为这会影响文档的输出方式saveHTML.)

稍微犹豫不决的方法是在文档中插入编码语句.您只需'<?xml encoding="UTF-8">'在解析的HTML之前插入即可.

<?php

$msg = "<body><a>áéíóú????</a></body>";
$temp_dom = new DOMDocument();    


$temp_dom->loadHTML('<?xml encoding="UTF-8">' . $msg);    
$temp_dom->encoding = 'UTF-8';
$dom_xpath = new DOMXpath($temp_dom);   
$ele = $dom_xpath->query('//a')->item(0);

echo "<pre>";
echo "Original: $msg\n";
echo $ele->nodeValue;     
echo "</pre>";
Run Code Online (Sandbox Code Playgroud)

输出:

<pre>Original: <body><a>áéíóú????</a></body>
áéíóú????</pre>
Run Code Online (Sandbox Code Playgroud)

但请注意,这确实会插入一个额外的节点作为文档对象的子节点(DOMProcessingInstruction准确地说是一个),所以如果你正在做任何事情$temp_dom->childNodes或类似的事情,请注意这一点.