为什么 DOMParser 会改变空格？

Question

为什么 DOMParser 会改变空格？

为什么以下使用 DOMParser 会导致 HTML 与用作输入的 HTML 不同？它删除 DOCTYPE 和顶级元素之间的空格，删除文档元素和之间的空格head，并在之前添加换行符</body>。

我已经在 Google Chrome、Firefox 和 Safari 中对此进行了测试；我还使用JSoup运行了类似的代码，并得到了完全相同的结果。所以我很确定这不是一个错误。我目前的理论是，这是由某处规范中的某种深奥解析规则引起的。但可能还有其他我误解的事情。

const html = `<!DOCTYPE html>
<html>
  <head>
    <title>1</title>
  </head>
  <body>
    <div>
      Hello, World!
    </div>
  </body>
</html>`;

const setText = function(id,string) {
  document.getElementById(id).appendChild(document.createTextNode(string));
};

const documentToString = function(d) {
  return Array.prototype.slice.call(d.childNodes).map(function(node) {
    if (node.nodeType == node.ELEMENT_NODE) return node.outerHTML;
    if (node.nodeType == node.DOCUMENT_TYPE_NODE) return new XMLSerializer().serializeToString(node);
    throw new TypeError("" + node);
  }).join("");
};

setText("raw", html);
var parsed = new DOMParser().parseFromString(html,"text/html");
setText("parsed", parsed.documentElement.outerHTML);
setText("converted", documentToString(parsed));
setText("xmlserializer", new XMLSerializer().serializeToString(parsed));

Run Code Online (Sandbox Code Playgroud)

#raw, #parsed, #converted, #xmlserializer { white-space: pre; font-family: monospace; }
h1 { font-size: 110%; font-weight: bold; font-family: sans-serif; }

Run Code Online (Sandbox Code Playgroud)

<body>
<h1>Raw string</h1>
<div id="raw"></div>
<h1>Parsed top-level element</h1>
<div id="parsed"></div>
<h1>Using a document-to-string converter</h1>
<div id="converted"></div>
<h1>From XMLSerializer</h1>
<div id="xmlserializer"></div>
</body>

Run Code Online (Sandbox Code Playgroud)

Answer 1

Kai*_*ido 1

因为这就是规范要求做的事情。

HTML 不是 XML，并且会发生很多转换。例如，您可能没有意识到，您的 StackSnippet 包含一个重复的<body>标记，因为 HTML 部分实际上由代码片段的脚本包装在这样的标记中。文档解析时会忽略重复项。

console.log('how many bodies?', document.querySelectorAll('body').length);

Run Code Online (Sandbox Code Playgroud)

<body><body><body></body></body></body>

Run Code Online (Sandbox Code Playgroud)

类似的转换也发生在 TextNode 上。

是的，这不是一DOMParser件事，它实际上是一个 HTML DOM 解析，在文档解析中你有相同的行为：

frame.src = URL.createObjectURL(new Blob([
`<!DOCTYPE html>
<html>
  <head>
    <title>1</title>
  </head>
  <body>
    <div>
      Hello, World!
    </div>
    <script>      parent.postMessage(document.documentElement.outerHTML, "*");
    <\/script>
  </body>
</html>`], {type: 'text/html'}));

onmessage = e => console.log(e.data);

Run Code Online (Sandbox Code Playgroud)

<iframe id="frame"></iframe>

Run Code Online (Sandbox Code Playgroud)

现在，如果您希望检索完全相同的字符串，请将其解析为 XML：

const html = `<!DOCTYPE html>
<html>
  <head>
    <title>1</title>
  </head>
  <body>
    <div>
      Hello, World!
    </div>
  </body>
</html>`;

const setText = function(id,string) {
  document.getElementById(id).appendChild(document.createTextNode(string));
};

const documentToString = function(d) {
  return Array.prototype.slice.call(d.childNodes).map(function(node) {
    if (node.nodeType == node.ELEMENT_NODE) return node.outerHTML;
    if (node.nodeType == node.DOCUMENT_TYPE_NODE) return new XMLSerializer().serializeToString(node);
    throw new TypeError("" + node);
  }).join("");
};

setText("raw", html);
var parsed = new DOMParser().parseFromString(html,"text/xml");
setText("parsed", parsed.documentElement.outerHTML);
setText("converted", documentToString(parsed));
setText("xmlserializer", new XMLSerializer().serializeToString(parsed));

Run Code Online (Sandbox Code Playgroud)

#raw, #parsed, #converted, #xmlserializer { white-space: pre; font-family: monospace; }
h1 { font-size: 110%; font-weight: bold; font-family: sans-serif; }

Run Code Online (Sandbox Code Playgroud)

<h1>Raw string</h1>
<div id="raw"></div>
<h1>Parsed top-level element</h1>
<div id="parsed"></div>
<h1>Using a document-to-string converter</h1>
<div id="converted"></div>
<h1>From XMLSerializer</h1>
<div id="xmlserializer"></div>

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，4 月前
查看次数：	1726 次
最近记录：	6 年，4 月前