如何在Node.js中完成所有网络抓取请求后呈现页面？

Question

如何在Node.js中完成所有网络抓取请求后呈现页面？

Sah*_*bov 1 asynchronous callback node.js web-scraping express

我正在使用jsdom(针对Node.js的web- scraping库)制作1到10个Web请求.它是这样的:

app.get('/results', function(req, res) {

jsdom.env(
  "http://website1.com",
  ["http://code.jquery.com/jquery.js"],
  function (errors, window) {
    // scrape website #1
  }
);

jsdom.env(
  "http://website2.com",
  ["http://code.jquery.com/jquery.js"],
  function (errors, window) {
    // scrape website #2
  }
);

jsdom.env(
  "http://website3.com",
  ["http://code.jquery.com/jquery.js"],
  function (errors, window) {
    // scrape website #3
  }
);
}

res.render('results', { items: items });
}

Run Code Online (Sandbox Code Playgroud)

如何在完成所有jsdom请求之后以及在收集了我需要的所有信息之后运行res.render()？在同步世界中,这显然不是问题,但由于javascript是异步的,res.render()将在任何jsdom回调完成之前运行.

Answer 1

rdr*_*rey 5

天真的解决方案

你可以用于少量擦除的"天真"解决方案是嵌套所有东西(在最后一次刮擦的回调中开始每次刮擦,最后一个回调包含渲染方法.)

scrape
  cb: scrape
     cb: scrape
        cb: render all results

Run Code Online (Sandbox Code Playgroud)

当然,这变得乏味和难以辨认.(而且一切都是串联的,而不是平行的,这不会很快.)

好的解决方案

更好的解决方案是编写一个函数来计算返回结果的数量,并render在所有返回结果时调用.这是一个实现:

function parallel_cb(total, finalCallback) {
    var done = 0;
    var results = [];
    return function(result) {
        done += 1;
        results.push(result);
        if (total == done) finalCallback(results);
    }
}

Run Code Online (Sandbox Code Playgroud)

要在您的示例中使用它:

app.get('/results', function(req, res) {
    var myCallback = parallel_cb(
        sitesToScrape.count, // or 3 in this case
        function(items) {res.render('results', { items: items })});

    jsdom.env(
      "http://nodejs.org/dist/",
      ["http://code.jquery.com/jquery.js"],
      function (errors, window) {
        // do some scraping
        myCallback(result_from_scrape);
      }
    );

    jsdom.env(
      "http://nodejs.org/dist/",
      ["http://code.jquery.com/jquery.js"],
      function (errors, window) {
        // more scraping
        myCallback(result_from_scrape);
      }
    );

    jsdom.env(
      "http://nodejs.org/dist/",
      ["http://code.jquery.com/jquery.js"],
      function (errors, window) {
        // even more scraping
        myCallback(result_from_scrape);
      }
    );
});

Run Code Online (Sandbox Code Playgroud)

最好的解决方案

您应该学习如何使用@almypal在您的问题的评论中建议的现有并行/异步库,而不是自己编写.

有了async你可以做一些描述更加简洁的文档:https://github.com/caolan/async#parallel

或者,如果所有擦除实际上在结果页面中查找相同的元素,您甚至可以对URL数组执行并行映射以进行刮擦:https://github.com/caolan/async#maparr-iterator-callback

每个擦除都可以使用async的并行方法提供的回调函数来返回其scrape的结果.最终的[可选]回调将包含您对render所有项目的调用.

编辑:你要求的例子

这是您的代码,直接翻译成async库:

var async = require("async");

app.get('/results', function(req, res) {
    async.parallel( // the first argument is an array of functions
      [
        // this cb (callback) is what you use to let the async
        // function know that you're done, and give it your result
        function (cb) { 
          jsdom.env(
            "http://nodejs.org/dist/",
            ["http://code.jquery.com/jquery.js"],
            function (errors, window) {
              // do some scraping      

              // async's callback expects an error for the first
              // param and the result as the second param
              cb(null, result_from_scrape); //No error
            }
          );
        },
        function (cb) { 
          jsdom.env(
            "http://nodejs.org/dist/",
            ["http://code.jquery.com/jquery.js"],
            function (errors, window) {
              // more scraping
              cb(null, result_from_scrape);
            }
          );
        },
        function (cb) { 
          jsdom.env(
            "http://nodejs.org/dist/",
            ["http://code.jquery.com/jquery.js"],
            function (errors, window) {
              // even more scraping
              cb(null, result_from_scrape);
            }
          );
        }
      ],
      // This is the "optional callback". We need it to render.
      function (err, results) {
        // If any of the parallel calls returned an error instead
        // of null, it's now in the err variable.
        if (err) res.render('error_template', {error: err});
        else res.render('results', { items: results });
      });
});

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，7 月前
查看次数：	1699 次
最近记录：	12 年，7 月前