JavaScript:如何从元素的所有后代获取文本,忽略脚本？

Question

JavaScript:如何从元素的所有后代获取文本,忽略脚本？

Bun*_*gle 6 javascript string text dom textnode

我当前的项目涉及根据提供的选择器从元素及其所有后代收集文本内容.

例如,当提供选择器#content并针对此HTML运行时:

<div id="content">
  <p>This is some text.</p>
  <script type="text/javascript">
    var test = true;
  </script>
  <p>This is some more text.</p>
</div>

Run Code Online (Sandbox Code Playgroud)

我的脚本将返回(经过一些小空格清理):

这是一些文字.var test = true; 这是一些更多的文字.

但是,我需要忽略<script>元素中出现的文本节点.

这是我当前代码的摘录(从技术上讲,它基于一个或多个提供的选择器进行匹配):

// get text content of all matching elements
for (x = 0; x < selectors.length; x++) { // 'selectors' is an array of CSS selectors from which to gather text content
  matches = Sizzle(selectors[x], document);
  for (y = 0; y < matches.length; y++) {
    match = matches[y];
    if (match.innerText) { // IE
      content += match.innerText + ' ';
    } else if (match.textContent) { // other browsers
      content += match.textContent + ' ';
    }
  }
}

Run Code Online (Sandbox Code Playgroud)

它有点过于简单了,因为它只返回与提供的选择器匹配的元素(及其后代)中的所有文本节点.我正在寻找的解决方案将返回除属于<script>元素之外的所有文本节点.它不需要特别高性能,但我确实需要它最终是跨浏览器兼容的.

我假设我需要以某种方式循环遍历与选择器匹配的元素的所有子元素,并累积除<script>元素之外的所有文本节点; 一旦它已经被卷入从所有文本节点累积的字符串中,它就没有任何方法可以识别它.

我不能使用jQuery(出于性能/带宽的原因),虽然您可能已经注意到我确实使用了它的Sizzle选择器引擎,因此jQuery的选择器逻辑可用.

在此先感谢您的帮助!

Answer 1

bob*_*nce 8

function getTextContentExceptScript(element) {
    var text= [];
    for (var i= 0, n= element.childNodes.length; i<n; i++) {
        var child= element.childNodes[i];
        if (child.nodeType===1 && child.tagName.toLowerCase()!=='script')
            text.push(getTextContentExceptScript(child));
        else if (child.nodeType===3)
            text.push(child.data);
    }
    return text.join('');
}

Run Code Online (Sandbox Code Playgroud)

或者,如果允许您更改DOM以删除<script>元素(通常不会产生明显的副作用),请更快:

var scripts= element.getElementsByTagName('script');
while (scripts.length!==0)
    scripts[0].parentNode.removeChild(scripts[0]);
return 'textContent' in element? element.textContent : element.innerText;

Run Code Online (Sandbox Code Playgroud)

它是DOM Level 1 Core(http://www.w3.org/TR/REC-DOM-Level-1/level-one-core.html),受所有浏览器和纯XML DOM支持.上面的代码只会查看Text节点中的数据(`3`是`Node.TEXT_NODE`,但IE无法提供该符号常量).在XML文档中,您可能还想从"CDATA_SECTION_NODE"("4")中获取数据.`COMMENT_NODE`是'8`并被忽略. (2认同)

归档时间：	15 年，11 月前
查看次数：	5295 次
最近记录：	15 年，11 月前