Gre*_*ego 3 php encoding xpath dom
$msg = "<body><a>áéíóú????</a></body>";
$temp_dom = new DOMDocument();
$temp_dom->loadHTML($msg);
$dom_xpath = new DOMXpath($temp_dom);
$ele = $dom_xpath->query('//a')->item(0);
echo "<pre>";
echo "Original: $msg\n";
echo $ele->nodeValue;
echo "</pre>";
Run Code Online (Sandbox Code Playgroud)
输出:
Original: áéíóú????
áéÃóúâ»â¥â¦â£
Run Code Online (Sandbox Code Playgroud)
当前文档编码为utf-8.我也试过ANSI,同样的问题也发生了.
utf8_decode解决了这个问题
echo utf8_decode($ele->nodeValue);
Run Code Online (Sandbox Code Playgroud)
但问题是,我使用了很多属性和很多函数,我必须在每一个函数中使用utf8_decode,我相信这不是正确的事情.有人知道我怎么能这样做?
请在发布结果之前使用此测试并进行测试,因为我已经尝试过很多东西.
非常感谢你提前.
问题是你需要告诉DOMDocument在解析HTML时编码是什么.您无法通过设置encoding选项来执行此操作.(我认为这会影响文档的输出方式saveHTML.)
稍微犹豫不决的方法是在文档中插入编码语句.您只需'<?xml encoding="UTF-8">'在解析的HTML之前插入即可.
<?php
$msg = "<body><a>áéíóú????</a></body>";
$temp_dom = new DOMDocument();
$temp_dom->loadHTML('<?xml encoding="UTF-8">' . $msg);
$temp_dom->encoding = 'UTF-8';
$dom_xpath = new DOMXpath($temp_dom);
$ele = $dom_xpath->query('//a')->item(0);
echo "<pre>";
echo "Original: $msg\n";
echo $ele->nodeValue;
echo "</pre>";
Run Code Online (Sandbox Code Playgroud)
输出:
<pre>Original: <body><a>áéíóú????</a></body>
áéíóú????</pre>
Run Code Online (Sandbox Code Playgroud)
但请注意,这确实会插入一个额外的节点作为文档对象的子节点(DOMProcessingInstruction准确地说是一个),所以如果你正在做任何事情$temp_dom->childNodes或类似的事情,请注意这一点.
| 归档时间: |
|
| 查看次数: |
1891 次 |
| 最近记录: |