Bor*_*cev 8 javascript puppeteer
我正在构建一个刮板,但是我一直坚持遍历 elementHandles。
我需要获取我成功执行的行元素列表。之后,对于每一行,我需要捕获 tds text/innerHTML(不确定哪个是哪个)。现在,将它们打印在标准输出中会很棒。
我得到的错误是UnhandledPromiseRejectionWarning: TypeError: tds.forEach is not a function,通过我的谷歌搜索告诉我 tds 不是数组。
我能够在 python 和 selenium 中实现这一点,但由于我是 javascript 新手,我预计我做错了什么。
根据我的理解,element.$$('td')返回一个 Promise,但如果我放置 await,我会得到SyntaxError: await is only valid in async function
const selectors = await page.$$('#transactionItems > tbody > tr');
console.log(selectors.length); // outputs 31 which is the right number
selectors.forEach( (element) => {
let tds = element.$$('td');
console.log(tds);
tds.forEach( (element) => {
console.log(element.innerText)
});
});
Run Code Online (Sandbox Code Playgroud)
编辑:
我已经尝试了以下代码,它成功地打印了它,但这仍然不是我想要的。
const selectors = await page.$$('#transactionItems > tbody > tr ');
console.log(selectors.length);
for(let tr of selectors){
const trText = await page.evaluate(el => el.innerHTML, tr);
console.log(trText)
}
Run Code Online (Sandbox Code Playgroud)
它输出以下内容:
<td> T737410C - <a class="pointer" target="_blank" onclick="openAPRImageWindow("T071835642571","112255603963");">Image</a></td>
<td>02/05/2018 06:48:06</td>
<td>DRPA</td>
<td> 07W - CBB</td>
<td>OPEN</td>
<td>$5.00</td>
<td>$25.00</td>
<td>$0.00</td>
<td>$30.00</td>
Run Code Online (Sandbox Code Playgroud)
我理想情况下需要的输出是
['T737410C', '02/05/2018 06:48:06', 'OPEN', '5.00', '25.00']
试试这个脚本:-
const puppeteer = require('puppeteer');
const html = `
<html>
<body>
<table>
<tr><td> T737410C - <a href=".">Image</a></td>
<td>02/05/2018 06:48:06</td><td>DRPA</td>
<td> 07W - CBB</td><td>OPEN</td></tr>
</table>
</body>
</html>`;
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto(`data:text/html,${html}`);
const data = await page.evaluate(() => {
const tds = Array.from(document.querySelectorAll('table tr td'))
return tds.map(td => {
var txt = td.innerHTML;
return txt.replace(/<a [^>]+>[^<]*<\/a>/g, '').trim();
});
});
//You will now have an array of strings
console.log(data);
await browser.close();
})()
Run Code Online (Sandbox Code Playgroud)
但是值得一提的是,您可能需要进行一些额外的替换以删除尾随的破折号等。
输出
| 归档时间: |
|
| 查看次数: |
11761 次 |
| 最近记录: |