我正在编写自己的C#4.0 WPF特定网络爬虫.目前我正在使用htmlagilitypack来处理html文档.
现在下面的方式我正在下载页面
HtmlWeb hwWeb = new HtmlWeb();
hwWeb.UserAgent = lstAgents[GenerateRandomValue.GenerateRandomValueMin(irAgentsCount, 0)];
hwWeb.PreRequest = OnPreRequest;
HtmlDocument hdMyDoc;
hwWeb = new HtmlWeb
{
AutoDetectEncoding = false,
OverrideEncoding = Encoding.GetEncoding("iso-8859-9"),
};
hdMyDoc = hwWeb.Load(srPageUrl);
private static bool OnPreRequest(HttpWebRequest request)
{
request.AllowAutoRedirect = true;
return true;
}
Run Code Online (Sandbox Code Playgroud)
现在我的问题是我希望能够确定给定的URL是text/html(可爬行内容)还是image/pdf简单的其他类型.我怎样才能做到这一点 ?
非常感谢您的回答.
C#4.0,WPF应用程序
您可以下载HttpWebRequest包含HttpWebResponse您可以检查的属性的页面,而不是依赖HTMLAgilityPack为您下载它.这将允许您在尝试解析内容之前执行检查.
| 归档时间: |
|
| 查看次数: |
647 次 |
| 最近记录: |