Puppeteer 从 page.$$ 选择器遍历 elementHandles

Bor*_*cev 8 javascript puppeteer

我正在构建一个刮板,但是我一直坚持遍历 elementHandles。

我需要获取我成功执行的行元素列表。之后,对于每一行,我需要捕获 tds text/innerHTML(不确定哪个是哪个)。现在,将它们打印在标准输出中会很棒。

我得到的错误是UnhandledPromiseRejectionWarning: TypeError: tds.forEach is not a function,通过我的谷歌搜索告诉我 tds 不是数组。

我能够在 python 和 selenium 中实现这一点,但由于我是 javascript 新手,我预计我做错了什么。

根据我的理解,element.$$('td')返回一个 Promise,但如果我放置 await,我会得到SyntaxError: await is only valid in async function

  const selectors = await page.$$('#transactionItems > tbody > tr');
  console.log(selectors.length); // outputs 31 which is the right number
  selectors.forEach( (element) => {
    let tds = element.$$('td');
    console.log(tds);
    tds.forEach( (element) => { 
      console.log(element.innerText)
    });
  });
Run Code Online (Sandbox Code Playgroud)

编辑:

我已经尝试了以下代码,它成功地打印了它,但这仍然不是我想要的。

const selectors = await page.$$('#transactionItems > tbody > tr ');
console.log(selectors.length);
for(let tr of selectors){
  const trText = await page.evaluate(el => el.innerHTML, tr);
  console.log(trText)
}
Run Code Online (Sandbox Code Playgroud)

它输出以下内容:

<td> T737410C - <a class="pointer" target="_blank" onclick="openAPRImageWindow(&quot;T071835642571&quot;,&quot;112255603963&quot;);">Image</a></td>
<td>02/05/2018 06:48:06</td>
<td>DRPA</td>
<td> 07W - CBB</td>
<td>OPEN</td>
<td>$5.00</td>
<td>$25.00</td>
<td>$0.00</td>
<td>$30.00</td>
Run Code Online (Sandbox Code Playgroud)

我理想情况下需要的输出是 ['T737410C', '02/05/2018 06:48:06', 'OPEN', '5.00', '25.00']

Rip*_*ppo 8

试试这个脚本:-

const puppeteer = require('puppeteer');

const html = `
<html>
    <body>
    <table>
    <tr><td> T737410C - <a href=".">Image</a></td>
        <td>02/05/2018 06:48:06</td><td>DRPA</td>
        <td> 07W - CBB</td><td>OPEN</td></tr>
    </table>
    </body>
</html>`;

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto(`data:text/html,${html}`);

  const data = await page.evaluate(() => {
      const tds = Array.from(document.querySelectorAll('table tr td'))
      return tds.map(td => {
         var txt = td.innerHTML;
         return txt.replace(/<a [^>]+>[^<]*<\/a>/g, '').trim();
      });
  });

  //You will now have an array of strings
  console.log(data);
  await browser.close();
})()
Run Code Online (Sandbox Code Playgroud)

但是值得一提的是,您可能需要进行一些额外的替换以删除尾随的破折号等。

输出

在此处输入图片说明