检查url是text/html还是其他文件类型,如图像

Question

检查url是text/html还是其他文件类型,如图像

我正在编写自己的C#4.0 WPF特定网络爬虫.目前我正在使用htmlagilitypack来处理html文档.

现在下面的方式我正在下载页面

HtmlWeb hwWeb = new HtmlWeb();
hwWeb.UserAgent = lstAgents[GenerateRandomValue.GenerateRandomValueMin(irAgentsCount, 0)];
hwWeb.PreRequest = OnPreRequest;
HtmlDocument hdMyDoc;

hwWeb = new HtmlWeb
                {
                    AutoDetectEncoding = false,
                    OverrideEncoding = Encoding.GetEncoding("iso-8859-9"),
                };
hdMyDoc = hwWeb.Load(srPageUrl);


        private static bool OnPreRequest(HttpWebRequest request)
    {
        request.AllowAutoRedirect = true;
        return true;
    }

Run Code Online (Sandbox Code Playgroud)

现在我的问题是我希望能够确定给定的URL是text/html(可爬行内容)还是image/pdf简单的其他类型.我怎样才能做到这一点？

非常感谢您的回答.

C#4.0,WPF应用程序

Answer 1

M.B*_*ock 5

您可以下载HttpWebRequest包含HttpWebResponse您可以检查的属性的页面,而不是依赖HTMLAgilityPack为您下载它.这将允许您在尝试解析内容之前执行检查.

归档时间：	13 年，12 月前
查看次数：	647 次
最近记录：	13 年，12 月前