Sah*_*bov 1 asynchronous callback node.js web-scraping express
我正在使用jsdom(针对Node.js的web- scraping库)制作1到10个Web请求.它是这样的:
app.get('/results', function(req, res) {
jsdom.env(
"http://website1.com",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
// scrape website #1
}
);
jsdom.env(
"http://website2.com",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
// scrape website #2
}
);
jsdom.env(
"http://website3.com",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
// scrape website #3
}
);
}
res.render('results', { items: items });
}
Run Code Online (Sandbox Code Playgroud)
如何在完成所有jsdom请求之后以及在收集了我需要的所有信息之后运行res.render()?在同步世界中,这显然不是问题,但由于javascript是异步的,res.render()将在任何jsdom回调完成之前运行.
你可以用于少量擦除的"天真"解决方案是嵌套所有东西(在最后一次刮擦的回调中开始每次刮擦,最后一个回调包含渲染方法.)
scrape
cb: scrape
cb: scrape
cb: render all results
Run Code Online (Sandbox Code Playgroud)
当然,这变得乏味和难以辨认.(而且一切都是串联的,而不是平行的,这不会很快.)
更好的解决方案是编写一个函数来计算返回结果的数量,并render
在所有返回结果时调用.这是一个实现:
function parallel_cb(total, finalCallback) {
var done = 0;
var results = [];
return function(result) {
done += 1;
results.push(result);
if (total == done) finalCallback(results);
}
}
Run Code Online (Sandbox Code Playgroud)
要在您的示例中使用它:
app.get('/results', function(req, res) {
var myCallback = parallel_cb(
sitesToScrape.count, // or 3 in this case
function(items) {res.render('results', { items: items })});
jsdom.env(
"http://nodejs.org/dist/",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
// do some scraping
myCallback(result_from_scrape);
}
);
jsdom.env(
"http://nodejs.org/dist/",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
// more scraping
myCallback(result_from_scrape);
}
);
jsdom.env(
"http://nodejs.org/dist/",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
// even more scraping
myCallback(result_from_scrape);
}
);
});
Run Code Online (Sandbox Code Playgroud)
您应该学习如何使用@almypal在您的问题的评论中建议的现有并行/异步库,而不是自己编写.
有了async
你可以做一些描述更加简洁的文档:https://github.com/caolan/async#parallel
或者,如果所有擦除实际上在结果页面中查找相同的元素,您甚至可以对URL数组执行并行映射以进行刮擦:https://github.com/caolan/async#maparr-iterator-callback
每个擦除都可以使用async的并行方法提供的回调函数来返回其scrape的结果.最终的[可选]回调将包含您对render
所有项目的调用.
这是您的代码,直接翻译成async
库:
var async = require("async");
app.get('/results', function(req, res) {
async.parallel( // the first argument is an array of functions
[
// this cb (callback) is what you use to let the async
// function know that you're done, and give it your result
function (cb) {
jsdom.env(
"http://nodejs.org/dist/",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
// do some scraping
// async's callback expects an error for the first
// param and the result as the second param
cb(null, result_from_scrape); //No error
}
);
},
function (cb) {
jsdom.env(
"http://nodejs.org/dist/",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
// more scraping
cb(null, result_from_scrape);
}
);
},
function (cb) {
jsdom.env(
"http://nodejs.org/dist/",
["http://code.jquery.com/jquery.js"],
function (errors, window) {
// even more scraping
cb(null, result_from_scrape);
}
);
}
],
// This is the "optional callback". We need it to render.
function (err, results) {
// If any of the parallel calls returned an error instead
// of null, it's now in the err variable.
if (err) res.render('error_template', {error: err});
else res.render('results', { items: results });
});
});
Run Code Online (Sandbox Code Playgroud)