C# .NET：抓取动态 (JS) 网站

Question

C# .NET：抓取动态 (JS) 网站

Pri*_*alj 5 .net c# web-scraping phantomjs selenium-webdriver

经过数小时的失败，我来到这里。我需要抓取一个动态生成的网页（使用 Vue.JS 制作，但我不想共享链接）。

我尝试了多种方法（1、2、3）。它们都不适用于此网页。

最有前途的解决方案是使用 Selenium 和 PhantomJS。我像这样尝试过，但我不确定为什么它甚至不适用于 Google：

private void button1_Click(object sender, EventArgs e) {
        PhantomJSDriverService service = PhantomJSDriverService.CreateDefaultService();
        service.IgnoreSslErrors = true;
        service.LoadImages = false;
        service.ProxyType = "none";

        var driver = new PhantomJSDriver(service); // I also tried: new PhantomJSDriver();
        driver.Manage().Timeouts().PageLoad = TimeSpan.FromSeconds(10);
        driver.Url = "https://google.com";
        driver.Navigate();

        var source = driver.PageSource;
        textBox1.AppendText(source);
}

Run Code Online (Sandbox Code Playgroud)

不工作：

我也尝试过使用 WebBrowser Control，但页面从未完全加载：

（编辑：我发现 WebBrowser 只是实例化 IE，在尝试在独立的 IE 浏览器中打开目标网站后，网页也永远不会完全加载，所以在 WebView 中看到相同的行为是有意义的。我想我绑定了 Selenium&PhantomJS由于这个事实。）

当然，这不应该那么复杂。如何正确操作？

Answer 1

小智 0

如果您需要抓取网站，您可以使用 ScrapySharp 抓取框架。您可以将其作为 nuget 添加到项目中。 https://www.nuget.org/packages/ScrapySharp/

安装包 ScrapySharp -版本 2.6.2

它有许多有用的属性来访问页面上的不同元素。例如，要访问页面的整个 HTML，您可以使用以下内容：

        ScrapingBrowser Browser = new ScrapingBrowser();
        WebPage PageResult = Browser.NavigateToPage(new Uri("http://www.example-site.com"));
        HtmlNode rawHTML = PageResult.Html;
        Console.WriteLine(rawHTML.InnerHtml);
        Console.ReadLine();

Run Code Online (Sandbox Code Playgroud)

这不会等到 javascript 执行完毕 (13认同)
动态页面有什么解决办法吗？我得到与 new HttpClient().ReadStringAsync(url); 相同的结果 (3认同)

归档时间：	7 年，8 月前
查看次数：	7096 次
最近记录：	7 年，4 月前