我正在寻找从 Google Apps Script 中的内容中提取 HTML 标签的 fastets 方法。
现在我使用这些函数来解析 HTML:
function getTextFromHtml(body) {
return getTextFromNode(Xml.parse(body, true).getElement());
}
function getTextFromNode(x) {
switch(x.toString()) {
case 'XmlText': return x.toXmlString();
case 'XmlElement': return x.getNodes().map(getTextFromNode).join('');
default: return '';
}
}
Run Code Online (Sandbox Code Playgroud)
但是对于长时间的 HTML 来说,这种方式是非常低效的。
示例 HTML 内容:http : //pastebin.com/FmB4hvN2
有任何想法吗?