通过单击按钮刮取网页并导航

use*_*794 31 node.js web-scraping zombie.js jsdom phantomjs

我想在服务器端执行以下操作:

1)刮取网页
2)模拟该页面上的点击,然后导航到新页面.
3)刮掉新页面
4)模拟新页面上的一些按钮点击
5)通过json或其他东西将数据发送回客户端

我正在考虑将它与Node.js一起使用.

但我很困惑我应该使用哪个模块
a)Zombie
b)Node.io
c)Phantomjs
d)JSDOM
e)其他

我已经安装了node,io但是无法通过命令提示符运行它.

PS:我在Windows 2008服务器上工作

dan*_*cic 43

Zombie.js和Node.io在JSDOM上运行,因此您可以使用JSDOM(或任何等效的包装器),无头浏览器(PhantomJS,SlimerJS)或Cheerio.

  • JSDOM相当慢,因为它必须在Node.js中重新创建DOM和CSSOM.
  • PhantomJS/SlimerJS是合适的无头浏览器,因此性能还可以,而且非常可靠.
  • Cheerio是JSDOM的轻量级替代品.它不会在Node.js中重新创建整个页面(它只是下载并解析DOM - 不执行javascript).因此,您无法真正点击按钮/链接,但抓取网页的速度非常快.

鉴于您的要求,我可能会选择像无头浏览器这样的东西.特别是,我选择CasperJS是因为它有一个漂亮而富有表现力的API,它快速可靠(它不需要重新发明如何解析和渲染像JSDOM那样的dom或css)并且它很容易与按钮和链接等元素交互.

您在CasperJS中的工作流程应该或多或少看起来像这样:

casper.start();

casper
  .then(function(){
    console.log("Start:");
  })
  .thenOpen("https://www.domain.com/page1")
  .then(function(){
    // scrape something
    this.echo(this.getHTML('h1#foobar'));
  })
  .thenClick("#button1")
  .then(function(){
    // scrape something else
    this.echo(this.getHTML('h2#foobar'));
  })
  .thenClick("#button2")
  thenOpen("http://myserver.com", {
    method: "post",
    data: {
        my: 'data',
    }
  }, function() {
      this.echo("data sent back to the server")
  });

casper.run(); 
Run Code Online (Sandbox Code Playgroud)


Tho*_*orf 14

简短回答(2019 年):使用 puppeteer

如果您需要一个完整的(无头)浏览器,请使用puppeteer而不是 PhantomJS,因为它提供了一个带有丰富API的最新 Chromium 浏览器,可以自动执行任何浏览器抓取和抓取任务。如果您只想解析 HTML 文档(而不在页面内执行 JavaScript),您应该查看jsdomcheerio

解释

jsdom(或cheerio)等工具允许它通过解析从HTML 文档中提取信息。只要网站不包含 JavaScript,这就会很快并且运行良好。从基于 JavaScript 的网站中提取信息将非常困难甚至不可能。例如,jsdom 能够执行脚本,但在您的 Node.js 环境中的沙箱中运行它们,这可能非常危险并且可能会使您的应用程序崩溃。引用文档

但是,这在处理不受信任的内容时也是非常危险的。

因此,要可靠地抓取更复杂的网站,您需要一个实际的浏览器。多年来,此任务最流行的解决方案是PhantomJS。但在 2018 年,PhantomJS 的开发被正式暂停。值得庆幸的是,自 2017 年 4 月以来,Google Chrome 团队使无头运行 Chrome 浏览器成为可能(公告)。这使得使用具有完整 JavaScript 支持的最新浏览器来抓取网站成为可能。

为了控制浏览器,库puppeteer也由 Google 开发人员维护,提供了丰富的API以在 Node.js 环境中使用。

代码示例

下面的几行显示了一个简单的例子。它使用 Promises 和 async/await 语法来执行许多任务。首先,启动浏览器 ( puppeteer.launch) 并打开一个 URL page.goto。之后,像page.evaluate和这样的函数page.click用于提取信息并在页面上执行操作。最后,浏览器关闭(browser.close)。

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  await page.goto('https://example.com');

  // example: get innerHTML of an element
  const someContent = await page.$eval('#selector', el => el.innerHTML);

  // Use Promise.all to wait for two actions (navigation and click)
  await Promise.all([
    page.waitForNavigation(), // wait for navigation to happen
    page.click('a.some-link'), // click link to cause navigation
  ]);

  // another example, this time using the evaluate function to return innerText of body
  const moreContent = await page.evaluate(() => document.body.innerText);

  // click another button
  await page.click('#button');

  // close brower when we are done
  await browser.close();
})();
Run Code Online (Sandbox Code Playgroud)