因此,我正在尝试使用puppeteer迭代一些URL,从HTML内容中获取数据,然后打印出CSV.
我被困在你打印数据的那一部分.现在我只是测试并尝试为每个数据做一个console.log().
我遇到的主要问题是循环运行非常快,打开了大量的浏览器窗口,并且日志全部乱序.
这是我的代码:
const puppeteer = require('puppeteer');
let scrape = async (i) => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.goto(`https://webPageURL.org/list/objects/${i}/`);
await page.waitFor(1000);
const result = await page.evaluate(() => {
let data = document.querySelector('.someClass')
if (data !== null) {
data = data.innerText;
}
return {
data
}
});
await browser.close();
return result;
};
for (var i = 0; i < 10; i++{
scrape(i).then((value) => {
console.log(i, ': ', value);
});
} …Run Code Online (Sandbox Code Playgroud)