相关疑难解决方法(0)

寻找C#HTML解析器

可能重复:
在C#中解析html的最佳方法是什么?

我想提取HTML文档的结构 - 所以标签比内容更重要.理想情况下,它也能够在一定程度上合理地处理格式错误的HTML.

有人知道一个可靠而有效的解析器吗?

.net html c# parsing

112
推荐指数
0
解决办法
6万
查看次数

在C#中解析html的最佳方法是什么?

我正在寻找一个库/方法来解析一个html文件,该文件具有比通用xml解析库更多的html特定功能.

.net html c# parsing html-content-extraction

66
推荐指数
7
解决办法
43万
查看次数

RegEx获取脚本标记的属性和主体

我正在使用此正则表达式来查找<script>标记:

<script (.|\n)*>(.|\n)*?</script>
Run Code Online (Sandbox Code Playgroud)

问题是,它匹配下面的ENTIRE字符串,而不仅仅是每个标记:

<script src="crap2.js"></script><script src="crap2.js"></script>
Run Code Online (Sandbox Code Playgroud)

html regex

1
推荐指数
4
解决办法
1万
查看次数

需要的建议:在C#中解析HTML的最佳方式

这是我的问题.哪种方法是从HTML页面中提取某些信息的最佳方式.我目前做的是以下内容:

  1. 使用WebClient下载页面

  2. 使用UTF8Encoding将接收的数据转换为字符串

  3. 将字符串转换为XML

  4. 使用.NET Framework中与Xml相关的类提取所需的数据

这就是我目前以概括的形式做的事情.谁知道另一种方法?什么可以更快或更容易?

最诚挚的问候,基里尔

PS:我听说过一个名为Watin的测试框架

这允许你做类似的事情,但没有进行太多的研究

html c#

0
推荐指数
1
解决办法
519
查看次数

标签 统计

html ×4

c# ×3

.net ×2

parsing ×2

html-content-extraction ×1

regex ×1