在C#中解析网页的有用内容

Question

在C#中解析网页的有用内容

可能重复:
解析网页

我试图用C#解析网页的内容.这是我使用的代码:

WebRequest request = WebRequest.Create("URL");
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();
string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
    html = sr.ReadToEnd();
}

Run Code Online (Sandbox Code Playgroud)

但问题是我得到了html包含的所有数据.

您对如何以"干净"方式获取有用数据有任何建议,或者我必须构建自己的解析器吗？例如:包含标题和与之相关的文本的帖子,类似博客的格式.

Answer 1

slu*_*ter 5

如果你确实试图从网页解析博客帖子不这样做,甚至不要考虑使用HTML Agility Pack.

相反,您应该使用已经内置到.Net框架中的SyndicationFeed和相关类(自v3.5起).这些是为消费和拆分RSS提供量身定制的.

归档时间：	13 年，1 月前
查看次数：	11109 次
最近记录：	13 年，1 月前