删除 HtmlAgilityPack 中无用的 TextNodes

Aab*_*ela 5 c# web-scraping html-agility-pack

我正在使用 HtmlAgilityPack 抓取许多网站。问题是它似乎坚持在大多数地方插入 TextNodes,这些地方要么是空的,要么只包含大量的 \n、空格和 \r。

当我计算 childnodes 时,它们往往会给我带来问题,因为 firebug 不会显示它们,但 HtmlAgilityPack 会。

有没有办法告诉 HtmlAgilityPack 停止这样做,或者至少清除这些文本节点?(不过我想保留有用的)。当我们在这里时,Comment 和 Script 标签也是如此。

Han*_*ing 0

两个节点之间的“无空白”和“有空白”之间是有区别的。因此,全空白文本节点仍然是必要且重要的。

在开始“真正的抓取”之前,你不能预处理 html 并删除所有不需要的节点吗?

另请参阅此答案以了解“如何删除”。