NiV*_*VeR 3 c# webpage html-parsing
可能重复:
解析网页
我试图用C#解析网页的内容.这是我使用的代码:
WebRequest request = WebRequest.Create("URL");
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();
string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
html = sr.ReadToEnd();
}
Run Code Online (Sandbox Code Playgroud)
但问题是我得到了html包含的所有数据.
您对如何以"干净"方式获取有用数据有任何建议,或者我必须构建自己的解析器吗?例如:包含标题和与之相关的文本的帖子,类似博客的格式.
如果你确实试图从网页解析博客帖子不这样做,甚至不要考虑使用HTML Agility Pack.
相反,您应该使用已经内置到.Net框架中的SyndicationFeed和相关类(自v3.5起).这些是为消费和拆分RSS提供量身定制的.
| 归档时间: |
|
| 查看次数: |
11109 次 |
| 最近记录: |