如何在ABOT C#Web Crawler中获取html输出页面？

Question

如何在ABOT C#Web Crawler中获取html输出页面？

我正在尝试使用ABOT在c#中创建网络爬虫.我搜索了许多示例并添加了ABOT网络爬虫.从那里我只能得到日志输出而不是Html页面输出.我想只得到html页面输出.因为HTML输出是HTML敏捷工具的输入.帮助我从C#中的ABOT网络爬虫获取HTML输出.谢谢.

Answer 1

sjd*_*ect 8

在快速入门页面上进行了解释

//Create an instance of the crawler and subscribe to the PageCrawlCompleted event
PoliteWebCrawler crawler = new PoliteWebCrawler();
crawler.PageCrawlCompleted += crawler_ProcessPageCrawlCompleted;

//The event handler method
void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e)
{
    CrawledPage crawledPage = e.CrawledPage;

    if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)
        Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);
    else
        Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);


    //crawledPage.Content.Text //raw html
    //crawledPage.HtmlDocument //lazy loaded html agility pack object (HtmlAgilityPack.HtmlDocument)
    //crawledPage.CSDocument   //lazy loaded cs query object (CsQuery.Cq)
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，5 月前
查看次数：	6024 次
最近记录：	6 年，6 月前