AngleSharp 文本元素解析

Question

AngleSharp 文本元素解析

我正在使用AngleSharp开发有限的浏览器功能。它解析 HTML 的方式让我有点困惑。例如，以下“div”的内容被解析为一个 BR 子元素和带有文本“test”的 TextContent 属性。因此无法找到BR元素在文本中的位置。

<div>te<br />st</div>

Run Code Online (Sandbox Code Playgroud)

我认为如果 DIV 有 3 个子组件会更好。第一个是内容为“te”的文本元素，然后是 BR 元素，后面跟着另一个内容为“st”的文本元素。

有没有其他解决方案？

Answer 1

Flo*_*ppl 5

事实上，它会产生预期的结果。AngleSharp 的 DOM（和 HTML5 兼容解析器）根据 W3C 规范工作。因此，应该不会有什么意外（与常青浏览器相比）。

var text = "<div>te<br/>st</div>";
var context = BrowsingContext.New();
var document = context.OpenAsync(m => m.Content(text)).Result;
var div = document.Body.QuerySelector("div");

Console.WriteLine(div.ChildNodes.Length);

foreach (var child in div.ChildNodes)
{
    Console.WriteLine(child.NodeName);
    Console.WriteLine(child.TextContent);
}

Run Code Online (Sandbox Code Playgroud)

输出是

3
#text
te
BR

#text
st

Run Code Online (Sandbox Code Playgroud)

因此我们有（文本节点、BR 元素、文本节点）。希望这可以帮助！

归档时间：	7 年，9 月前
查看次数：	3715 次
最近记录：	7 年，9 月前