Har*_*hna 4 c# html-parsing htmltidy winforms html-agility-pack
我正在使用html agility pack来解析html 表格信息.现在有一些html内容缺少结束标记,并且由于缺少结束标记而来自此页面html agility pack不能正确解析信息.所以我想在缺少结束标记的地方插入结束标记,以便html敏捷包正确解析信息.所以要插入缺少的结束标记我该怎么办?我应该为此编写自己的代码还是使用html tidy pack来做到这一点?
如果html整洁包然后哪个是最好的html整洁包,如果可能的话如何使用它的任何示例?如果我自己的代码比它可能是什么样的?
在html agility pack中是否有任何选项可以让我们首先使html页面整洁,然后解析网页.
在Html Agility Pack中,我找不到任何使html页面整洁的选项.有一个选项可以插入缺少的结束标记,但它只适用于某些html页面.在html敏捷包中的选项是,
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.OptionFixNestedTags=true;
Run Code Online (Sandbox Code Playgroud)
我也尝试过regex,但它也适用于某些html页面.
所以我发现最好的html整洁包是:
http://www.devx.com/dotnet/Article/20505/1763/page/2.
我们可以在那里看到:如何导入dll以及如何使用这个整洁的包,还有可用的示例代码.它很棒.它可以插入缺少的结束标记并使您的html页面整洁.
谢谢你帮助大家..