需要的建议:在C#中解析HTML的最佳方式

Kir*_*oev 0 html c#

这是我的问题.哪种方法是从HTML页面中提取某些信息的最佳方式.我目前做的是以下内容:

  1. 使用WebClient下载页面

  2. 使用UTF8Encoding将接收的数据转换为字符串

  3. 将字符串转换为XML

  4. 使用.NET Framework中与Xml相关的类提取所需的数据

这就是我目前以概括的形式做的事情.谁知道另一种方法?什么可以更快或更容易?

最诚挚的问候,基里尔

PS:我听说过一个名为Watin的测试框架

这允许你做类似的事情,但没有进行太多的研究

Rex*_*x M 5

听起来你已经弄明白了如何获取页面数据(这是最简单的部分).

对于其他人,我用于此类任务的最佳托管库是HTML Agility Pack.它是开源的,非常成熟,完全用.NET编写.它处理格式错误的HTML,可以通过两种不同的方式完成您的需求:

  • 本机支持对HTML DOM进行XPATH和类似XML的查询.它旨在模仿.NET的XML库,因此您可以使用.NET对XML进行任何操作,您可以使用它来对付HTML.

  • 支持从HTML生成有效的XML,因此您可以使用任何XML工具.